論文の概要: The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers
- arxiv url: http://arxiv.org/abs/2510.11218v1
- Date: Mon, 13 Oct 2025 10:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.306875
- Title: The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers
- Title(参考訳): LLMの短解答と長解答のファクチュアル(ミス)アライメント
- Authors: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš,
- Abstract要約: 大きな言語モデル (LLMs) は「アインシュタインはいつ生まれたのか?」と正確に答えることができるが、アインシュタインの生涯について書く際にも同じ日付を提供することができなかった。
モデルでは,実際の問合せの精度は高いが,単純な問合せと複雑な問合せの信頼性の差はよく分かっていない。
- 参考スコア(独自算出の注目度): 22.24685025857759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can correctly answer "When was Einstein born?" yet fail to provide the same date when writing about Einstein's life revealing a fundamental inconsistency in how models access factual knowledge across task complexities. While models display impressive accuracy on factual question-answering benchmarks, the reliability gap between simple and complex queries remains poorly understood, eroding their trustworthiness. In this work, we introduce Short-Long Form Alignment for Factual Question Answering (SLAQ), a controlled evaluation framework that compares LLMs' answers to the same factual questions asked (a) in isolation (short) vs. (b) integrated into complex queries (long). Looking at 16 LLMs across 600 queries, we find a systematic misalignment of answers to the corresponding short and long queries. We further uncover position-dependent accuracy loss and momentum effects where consecutive correct or incorrect answers create self-reinforcing patterns. Through mechanistic analysis, we find that aligned facts activate overlapping model internals, and that metrics based on mechanistic similarity can predict short-long answer alignment with up to 78% accuracy. Our work establishes factual consistency over query complexity as an important aspect of LLMs' trustworthiness and challenges current evaluation practices, which implicitly assume that good performance for simple factual queries implies reliability in more complex knowledge-seeking tasks too.
- Abstract(参考訳): 大規模言語モデル(LLMs)は「アインシュタインが生まれたのはいつですか?」と正確に答えることができるが、アインシュタインの生涯について書いているときにも同じ日付を提示することができない。
モデルでは、実際の問合せベンチマークで顕著な精度が示されるが、単純なクエリと複雑なクエリの信頼性のギャップはよく理解されておらず、信頼性を損なう。
本研究では,LLMの回答と質問された事実的質問を比較検討する制御された評価フレームワークであるSLAQ(Short-Long Form Alignment for Factual Question Answering)を紹介する。
a) 孤立した(短い)対
(b) 複雑なクエリ (long) に統合される。
600のクエリにまたがる16のLLMを見ると、対応する短いクエリと長いクエリに対する答えの体系的なミスアライメントが見つかる。
さらに、位置依存的精度損失と運動量効果を明らかにし、連続的正解または誤解が自己強化パターンを生成する。
メカニスティック分析により、アライメントされた事実が重なり合うモデル内部を活性化し、メカニスティックな類似性に基づくメトリクスが、最大78%の精度で短時間の回答アライメントを予測できることがわかった。
我々の研究は、LLMの信頼性の重要な側面として、クエリ複雑性に対する事実整合性を確立し、現在の評価プラクティスに挑戦する。
関連論文リスト
- Consensus or Conflict? Fine-Grained Evaluation of Conflicting Answers in Question-Answering [22.447638522275092]
質問に有効な回答がいくつかあるようなマルチ回答質問回答 (MAQA) は依然として困難である。
本研究では,NATCONFQAの構築にファクトチェックデータセットを活用するための,コスト効率の高い新しい手法を提案する。
NATCONFQA 上で8つのハイエンド LLM を評価し,多種多様な競合に対処する際の脆弱さを明らかにした。
論文 参考訳(メタデータ) (2025-08-17T12:58:48Z) - RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models [9.211266032947497]
我々は,事実検索が孤立点問合せよりもかなり難しいことを実証した。
我々の実験では、最先端のLLMでさえ25%以上の精度で苦戦していることがわかった。
これらの知見は、構造化された事実知識を合成する現在のLLMの能力において、重要な限界である。
論文 参考訳(メタデータ) (2025-05-27T16:33:38Z) - Automatically Advancing LLM Expertise in Technology Judgment [1.1269582666887323]
大規模言語モデル(LLM)は、科学、工学、革新のための中核的なツールになりつつある。
ますます難しい問題に答えられるという印象的な能力にもかかわらず、LLMが新しい課題に直面する際に真に自分の知識を使うかどうかは不明だ。
我々は、2015年以降の1300万のコンピュータサイエンス特許ペアのベンチマークを評価し、密度の高い技術ジャーゴンと戦略的に複雑な書き込みを特徴とする。
LLMはベンチマークに失敗することが多く、セマンティックに類似した特許の識別に苦慮している。
論文 参考訳(メタデータ) (2025-05-18T15:04:02Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Atomic Fact Decomposition Helps Attributed Question Answering [29.67882325906939]
Attributed Question Answering (AQA)は、質問に対する信頼できる回答と信頼できる属性レポートを提供することを目的としている。
本稿では,アトミックな事実分解に基づくRetrieval and Editingフレームワークを提案する。
生成した長文の回答を、命令調整されたLSMによって分子節と原子事実に分解する。
論文 参考訳(メタデータ) (2024-10-22T05:25:54Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。