論文の概要: How Does Response Length Affect Long-Form Factuality
- arxiv url: http://arxiv.org/abs/2505.23295v1
- Date: Thu, 29 May 2025 09:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.796247
- Title: How Does Response Length Affect Long-Form Factuality
- Title(参考訳): 長尺が長尺形状に及ぼす影響
- Authors: James Xu Zhao, Jimmy Z. J. Liu, Bryan Hooi, See-Kiong Ng,
- Abstract要約: 事実性への注意が高まる一方で、事実性に対する応答長の影響は未解明のままである。
我々は,人間のアノテーションと高い一致を達成できる,自動的および二段階の長文事実性評価フレームワークを導入する。
この枠組みを用いて、より長い応答は、より少ない事実的精度を示し、長さバイアスの存在を確認する。
- 参考スコア(独自算出の注目度): 44.91589620660189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are widely used for long-form text generation. However, factual errors in the responses would undermine their reliability. Despite growing attention to LLM factuality, the effect of response length on factuality remains underexplored. In this work, we systematically investigate this relationship by first introducing an automatic and bi-level long-form factuality evaluation framework, which achieves high agreement with human annotations while being cost-effective. Using this framework, we conduct controlled experiments and find that longer responses exhibit lower factual precision, confirming the presence of length bias. To explain this phenomenon, we empirically examine three hypotheses: error propagation, long context, and facts exhaustion. Our results reveal that facts exhaustion, where the model gradually exhausts more reliable knowledge, is the primary cause of factual degradation, rather than the other two hypotheses.
- Abstract(参考訳): 大規模言語モデル(LLM)は長文生成に広く使われている。
しかし、応答における実際のエラーは、その信頼性を損なうことになる。
LLMの事実性に注目が集まる一方で、応答長が事実性に与える影響は未解明のままである。
本研究では,まず,費用対効果を保ちながら人的アノテーションとの高整合性を実現する,自動的かつ二段階の長文事実性評価フレームワークを導入することで,この関係を体系的に検討する。
この枠組みを用いて、制御された実験を行い、より長い応答がより少ない事実精度を示し、長さバイアスの存在を確認する。
この現象を説明するために, 誤りの伝播, 長い文脈, 事実の枯渇という3つの仮説を実証的に検討した。
以上の結果から,モデルが徐々に信頼性の高い知識を消耗する事実が,他の2つの仮説よりも事実劣化の主な原因であることが示唆された。
関連論文リスト
- Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data [19.79929012055293]
LongFaithは忠実な長文推論命令データセットを合成するための新しいパイプラインである。
基礎的真理と引用に基づく推論のプロンプトを統合することにより、注意散らしを排除し、推論連鎖の精度を向上させる。
論文 参考訳(メタデータ) (2025-02-18T06:40:23Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Explaining Length Bias in LLM-Based Preference Evaluations [51.07275977870145]
本研究では,選好評価指標,特に勝率を,好ましさと情報量という2つの重要な要素に分解する。
応答長が情報量に影響を与えることにより評価に影響を及ぼすことを示す。
本稿では,利得率測定のための簡易かつ効果的な調整法であるAdapAlpacaを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:37:41Z) - Know When To Stop: A Study of Semantic Drift in Text Generation [9.76171773410722]
現代のLSMは、まず正しい事実を生成し、次に「引き離し」、後に誤った事実を生成する傾向があることを示す。
この誤生成パターンは、いつ生成を中止すべきかを知ることで、事実精度を向上させることができることを示している。
論文 参考訳(メタデータ) (2024-04-08T11:25:30Z) - When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
主観的意見と文を含む問合せに対して,Large Language Models (LLMs) がサイコファン傾向を示すことを示す。
様々なスケールのLCMは、正しい回答を提供する自信を示すことによって、ユーザのヒントに従わないように思われる。
論文 参考訳(メタデータ) (2023-11-15T22:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。