論文の概要: Illusions of reflection: open-ended task reveals systematic failures in Large Language Models' reflective reasoning
- arxiv url: http://arxiv.org/abs/2510.18254v2
- Date: Thu, 23 Oct 2025 01:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.837868
- Title: Illusions of reflection: open-ended task reveals systematic failures in Large Language Models' reflective reasoning
- Title(参考訳): リフレクションのイリュージョン:大規模言語モデルのリフレクティブ推論における系統的失敗を明らかにするオープンエンドタスク
- Authors: Sion Weatherhead, Flora Salim, Aaron Belbasis,
- Abstract要約: 「リフレクション」はゴールとその制約に結びついているが、人間のリフレクティブ推論と等価か?
クローズドエンドタスクの以前の作業は、自己補正の限界を隠蔽しながら、'リフレクション'を効果的に見せることができる。
ファーストパス性能は貧弱であり、リフレクションは緩やかな利得しか得られない。
このようなメカニズムがモデル自体でインスタンス化されるまでは、信頼性のあるパフォーマンスには制約を強制する外部構造が必要です。
- 参考スコア(独自算出の注目度): 0.6372261626436676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans do not just find mistakes after the fact -- we often catch them mid-stream because 'reflection' is tied to the goal and its constraints. Today's large language models produce reasoning tokens and 'reflective' text, but is it functionally equivalent with human reflective reasoning? Prior work on closed-ended tasks -- with clear, external 'correctness' signals -- can make 'reflection' look effective while masking limits in self-correction. We therefore test eight frontier models on a simple, real-world task that is open-ended yet rule-constrained, with auditable success criteria: to produce valid scientific test items, then revise after considering their own critique. First-pass performance is poor (often zero valid items out of 4 required; mean $\approx$ 1), and reflection yields only modest gains (also $\approx$ 1). Crucially, the second attempt frequently repeats the same violation of constraint, indicating 'corrective gains' arise largely from chance production of a valid item rather than error detection and principled, constraint-sensitive repair. Performance before and after reflection deteriorates as open-endedness increases, and models marketed for 'reasoning' show no advantage. Our results suggest that current LLM 'reflection' lacks functional evidence of the active, goal-driven monitoring that helps humans respect constraints even on a first pass. Until such mechanisms are instantiated in the model itself, reliable performance requires external structure that enforces constraints. Our code is available at: https://github.com/cruiseresearchgroup/LLM_ReflectionTest
- Abstract(参考訳): 人間は、事実の後に単に間違いを見つけるだけでなく、'反射'がゴールとその制約に結びついているため、ストリームの途中でそれをキャッチすることが多い。
今日の大きな言語モデルは推論トークンと「反射的」テキストを生成するが、機能的には人間の反射的推論と同等か?
クローズドエンドタスク(明確な外部の「正確さ」信号を含む)の以前の作業は、自己補正の限界を隠蔽しながら「リフレクション」を効果的に見せることができる。
したがって、我々は、有効な科学的テスト項目を生成するための監査可能な成功基準とともに、オープンエンドで規則に制約された、シンプルな現実世界のタスクで8つのフロンティアモデルをテストし、その後、独自の批判を考慮して修正する。
ファーストパスのパフォーマンスは貧弱(しばしば4つのうちの有効項目はゼロ)で、リフレクションはモデストゲイン($\approx$ 1)しか得られない($\approx$ 1)。
重要なことに、2度目の試みは、しばしば同じ制約違反を繰り返し、エラー検出や原則付き、制約に敏感な修復よりも、有効なアイテムを偶然に生成することによる'修正的利得'を示す。
反射前後のパフォーマンスは、開度が増大するにつれて悪化し、「放散」のために販売されたモデルは、何の利点も示さなかった。
以上の結果から,現在のLLMの「反射」は,ヒトが最初のパスでも制約を尊重するのに役立つ,アクティブで目標駆動型のモニタリングの機能的証拠を欠いていることが示唆された。
このようなメカニズムがモデル自体でインスタンス化されるまでは、信頼性のあるパフォーマンスには制約を強制する外部構造が必要です。
私たちのコードは、https://github.com/cruiseresearchgroup/LLM_ReflectionTestで利用可能です。
関連論文リスト
- First Try Matters: Revisiting the Role of Reflection in Reasoning Models [66.39546876232512]
我々は、モデルがすでに答を生み出しているが、その出力を確定する前に反射し続ける反射行動に焦点を当てる。
分析の結果,反射はおおむね肯定的であり,モデルの初期回答を変えることは滅多にないことがわかった。
本稿では,いくつかの候補解が生成されると推論プロセスが停止し,推論時間のトークン効率を向上させる質問認識早期検索手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T14:57:10Z) - Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models [29.615519143908998]
自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。
自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。
また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
論文 参考訳(メタデータ) (2025-06-14T05:30:09Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z) - On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2024-02-12T23:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。