論文の概要: Answering the Wrong Question: Reasoning Trace Inversion for Abstention in LLMs
- arxiv url: http://arxiv.org/abs/2604.02230v1
- Date: Thu, 02 Apr 2026 16:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.915377
- Title: Answering the Wrong Question: Reasoning Trace Inversion for Abstention in LLMs
- Title(参考訳): 誤り問題への答え:LLMにおける留意点の逆転
- Authors: Abinitha Gourabathina, Inkit Padhi, Manish Nagireddy, Subhajit Chaudhury, Prasanna Sattigeri,
- Abstract要約: 推論モデルは禁忌能力が悪くなることが示されている。
失敗に終わった幻覚は、誤った質問に答えるLSMとして再解釈することができる。
我々はTrace Inversionと呼ばれる最先端の禁忌手法を新たに開発する。
- 参考スコア(独自算出の注目度): 24.31388053995892
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: For Large Language Models (LLMs) to be reliably deployed, models must effectively know when not to answer: abstain. Reasoning models, in particular, have gained attention for impressive performance on complex tasks. However, reasoning models have been shown to have worse abstention abilities. Taking the vulnerabilities of reasoning models into account, we propose our Query Misalignment Framework. Hallucinations resulting in failed abstention can be reinterpreted as LLMs answering the wrong question (rather than answering a question incorrectly). Based on this framework, we develop a new class of state-of-the-art abstention methods called Trace Inversion. First, we generate the reasoning trace of a model. Based on only the trace, we then reconstruct the most likely query that the model responded to. Finally, we compare the initial query with the reconstructed query. Low similarity score between the initial query and reconstructed query suggests that the model likely answered the question incorrectly and is flagged to abstain. Extensive experiments demonstrate that Trace Inversion effectively boosts abstention performance in four frontier LLMs across nine abstention QA datasets, beating competitive baselines in 33 out of 36 settings.
- Abstract(参考訳): LLM(Large Language Model)が確実にデプロイされるためには、モデルが答えるべきでないことを効果的に知る必要がある。
特に推論モデルは、複雑なタスクにおける印象的なパフォーマンスについて注目を集めている。
しかし、推論モデルは禁断能力が悪くなることが示されている。
推論モデルの脆弱性を考慮して、クエリミスアライメントフレームワークを提案する。
失敗に終わった幻覚は、間違った質問に答える(誤った質問に答えるのではなく)LLMとして再解釈することができる。
この枠組みに基づいて,Trace Inversionと呼ばれる最先端の禁忌手法を新たに開発する。
まず、モデルの推論トレースを生成する。
トレースのみに基づいて、モデルが応答した最も可能性の高いクエリを再構築する。
最後に、初期クエリと再構成クエリを比較します。
最初のクエリと再構成されたクエリの類似点が低いことは、モデルが疑問に正しく答えず、無視するようにフラグ付けされていることを示唆している。
広範囲な実験により、Trace Inversionは、9つの禁断QAデータセットにわたる4つのフロンティアLMにおける禁断性能を効果的に向上させ、36のセッティングのうち33の競争ベースラインを上回ります。
関連論文リスト
- Probing the Trajectories of Reasoning Traces in Large Language Models [4.599673637363014]
本研究では,大規模言語モデルにおける推論トレースの軌跡を探索するプロトコルを提案する。
得られた推論トークンの比率が大きくなるにつれて、精度と決定のコミットメントが一貫して増加することが分かっています。
軌道探索が推論モデルのより効率的かつ安全な展開のための診断を提供することを示す。
論文 参考訳(メタデータ) (2026-01-30T16:45:16Z) - MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning [20.82742383613536]
マルチモーダル大言語モデル (MLLM) は視覚言語対応タスクにおいて顕著な機能を示した。
これまでの研究は、特殊な数学的データセットの微調整に重点を置いてきた。
メソッドは推論、リフレクション、報酬に基づくフィードバックのサイクルを通じてモデルを反復的に洗練する。
MathVL-testの結果は、主要なオープンソースマルチモーダル数学的推論モデルQVQを上回った。
論文 参考訳(メタデータ) (2025-11-10T07:46:19Z) - First Try Matters: Revisiting the Role of Reflection in Reasoning Models [66.39546876232512]
我々は、モデルがすでに答を生み出しているが、その出力を確定する前に反射し続ける反射行動に焦点を当てる。
分析の結果,反射はおおむね肯定的であり,モデルの初期回答を変えることは滅多にないことがわかった。
本稿では,いくつかの候補解が生成されると推論プロセスが停止し,推論時間のトークン効率を向上させる質問認識早期検索手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T14:57:10Z) - ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context [66.15505423059234]
ASTROは,検索アルゴリズムのような推論のために,言語モデルをトレーニングするためのフレームワークである。
ASTROをLlama 3モデルのモデルに適用し,MATH-500では16.4%,AMC 2023では26.9%,AIME 2024では20.0%,絶対的な性能向上を達成した。
論文 参考訳(メタデータ) (2025-07-01T04:10:15Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions [32.871820908561936]
AbstentionBenchは、20の多様なデータセットにわたる禁忌を評価するためのベンチマークである。
微調整による推論は、数学や科学の分野でも無視される。
論文 参考訳(メタデータ) (2025-06-10T17:57:30Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Sufficient Context: A New Lens on Retrieval Augmented Generation Systems [19.238772793096473]
LLMをコンテキストで拡張すると、多くのアプリケーションのパフォーマンスが向上する。
我々は、クエリに答える十分な情報を持つインスタンスを分類すると共に、十分なコンテキストという新しい概念を開発する。
文脈充足度に基づく誤りの階層化により,コンテキストが十分であれば,より高いベースライン性能を持つ大規模モデルの方がクエリの応答に優れることがわかった。
論文 参考訳(メタデータ) (2024-11-09T02:13:14Z) - LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。
この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。
モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文 参考訳(メタデータ) (2024-05-15T13:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。