論文の概要: NumPert: Numerical Perturbations to Probe Language Models for Veracity Prediction
- arxiv url: http://arxiv.org/abs/2511.09971v1
- Date: Fri, 14 Nov 2025 01:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.613317
- Title: NumPert: Numerical Perturbations to Probe Language Models for Veracity Prediction
- Title(参考訳): NumPert: 精度予測のための言語モデルの数値摂動
- Authors: Peter Røysland Aarnes, Vinay Setty,
- Abstract要約: 本稿では,数値クレームとエビデンスペアの精度予測のための最先端モデルの体系的評価を行う。
その結果、プロプライエタリなシステムの先駆者でさえ、特定の摂動の下で最大62%の精度低下を経験していることが示唆された。
これらの知見は、数値的な事実チェックにおける限界を浮き彫りにして、ロバスト性は現在の言語モデルにとってオープンな課題であり続けていることを示唆している。
- 参考スコア(独自算出の注目度): 7.856998585396422
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models show strong performance on knowledge intensive tasks such as fact-checking and question answering, yet they often struggle with numerical reasoning. We present a systematic evaluation of state-of-the-art models for veracity prediction on numerical claims and evidence pairs using controlled perturbations, including label-flipping probes, to test robustness. Our results indicate that even leading proprietary systems experience accuracy drops of up to 62\% under certain perturbations. No model proves to be robust across all conditions. We further find that increasing context length generally reduces accuracy, but when extended context is enriched with perturbed demonstrations, most models substantially recover. These findings highlight critical limitations in numerical fact-checking and suggest that robustness remains an open challenge for current language models.
- Abstract(参考訳): 大規模言語モデルは、事実チェックや質問応答のような知識集約的なタスクにおいて強いパフォーマンスを示すが、数値推論に苦慮することが多い。
本稿では,ラベルフリッププローブを含む制御摂動を用いた数値クレームとエビデンスペアの精度予測のための最先端モデルの体系的評価を行い,ロバスト性を検証した。
以上の結果から,プロプライエタリなシステムにおいても,特定の摂動条件下では最大62%の精度で精度が低下することが示唆された。
すべての条件で堅牢であることを示すモデルは存在しない。
さらに、コンテキスト長の増加は一般的に精度を低下させるが、拡張されたコンテキストが摂動デモで強化されると、ほとんどのモデルが大幅に回復する。
これらの知見は、数値的な事実チェックにおける限界を浮き彫りにして、ロバスト性は現在の言語モデルにとってオープンな課題であり続けていることを示唆している。
関連論文リスト
- LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models [49.92148175114169]
制御された摂動を7次元にわたって導入することにより,系統的な脆弱性解析を行う。
モデルは、カメラの視点やロボットの初期状態を含む摂動要因に対して極端に敏感である。
驚くべきことに、モデルは言語の変化にほとんど敏感であり、さらなる実験により、モデルは言語命令を完全に無視する傾向があることが明らかになった。
論文 参考訳(メタデータ) (2025-10-15T14:51:36Z) - Are vision language models robust to uncertain inputs? [5.249651874118556]
より新しい視覚言語モデルでは、従来のモデルに比べて頑健性が向上したが、それでも厳密な指示に従う傾向にあることを示す。
ImageNetのような自然なイメージでは、パイプラインの変更なしにこの制限を克服することができる。
モデルの内部不確実性を明らかにするために,キャプションの多様性に基づく新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2025-05-17T03:16:49Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance [3.7024660695776066]
データセットがモデルの意味理解能力を評価するための良いテストベッドを構成するかどうかを評価することができる新しい診断テストスイートを提案します。
特に,広く使用されているベンチマーク(mnliおよびanli)に制御された腐敗変換を適用する。
モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な挑戦を提供することを示している。
論文 参考訳(メタデータ) (2021-04-10T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。