論文の概要: The Self-Correction Illusion: LLMs Correct Others but Not Themselves
- arxiv url: http://arxiv.org/abs/2606.05976v1
- Date: Thu, 04 Jun 2026 10:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.719961
- Title: The Self-Correction Illusion: LLMs Correct Others but Not Themselves
- Title(参考訳): 自己補正のイリュージョン:LSMは正しいがテーマではない
- Authors: Kuan-Yen Chen, Fang-Yi Su, Jung-Hsien Chiang,
- Abstract要約: LLMエージェントは、自身の推論トレースでエラーを修正するのに苦労するが、同じ主張が外部ソースに現れると、著しく高い修正率を示す。
この非対称性は能力不足やロールラベルアーティファクトを反映しているのかを問う。
このアーティファクトは、トレーニングを必要とせず、モデル修正も必要としない、プロンプト構造のみの介入を設計することで活用します。
- 参考スコア(独自算出の注目度): 0.30586855806896035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work shows that LLM agents struggle to correct errors in their own reasoning traces yet show markedly higher correction rates when identical claims appear under external sources. We ask whether this asymmetry reflects a capability deficit or a role-label artifact: does an agent's willingness to correct a wrong claim depend causally on the chat-template role that carries it, rather than on the claim's content? Our setup keeps the erroneous claim byte-identical across all conditions (SHA-256 verified) and varies only its wrapping role: the agent's own \role{<thought>}, a \role{user} message, a \role{tool} response, or a \role{system <memory>} block. Across 13 model-domain cells covering seven model families and three domains ($n{=}30$ paired tasks per cell), relabeling the claim from \role{<thought>} to an external role lifts the explicit-correction rate by 23 to 93 percentage points, with 10 of 13 cells reaching $p{<}0.001$. Further experiments confirm that the effect is asymmetric, mechanistically decomposable, and robust across domains. The failure to self-correct is not a cognitive deficit; it is a chat-template artifact. We exploit this artifact by designing a prompt-structure-only intervention that requires no training and no model modification, with its strongest role label being domain-dependent: \role{<memory>} dominates on math, while a plain \role{user} message dominates on logical deduction.
- Abstract(参考訳): 最近の研究は、LLMエージェントが自身の推論トレースの誤りを修正するのに苦労していることを示しているが、同じ主張が外部ソースの下に現れると、かなり高い修正率を示す。
我々は、この非対称性が能力不足やロールラベルの成果物を反映しているかどうかを尋ねる: 間違ったクレームを訂正するエージェントの意志は、クレームの内容ではなく、それを伝達するチャットタイムロールに慎重に依存しているか?
我々のセットアップでは、すべての条件(SHA-256検証)で誤ったクレームを傍受し、そのラップングの役割だけを変える:エージェント自身の \role{<thinkt>}、 \role{user} メッセージ、 \role{tool} 応答、あるいは \role{system <Memory>} ブロック。
7つのモデルファミリーと3つのドメイン(n{=}30$ペアタスク)をカバーする13のモデルドメインセル(n{=}30$ペアタスク)は、 \role{<thinkt>} から外部ロールへの要求を緩和し、明示的補正率を23から93ポイント引き上げ、13のセルのうち10が$p{<}0.001$に達する。
さらなる実験により、この効果は非対称であり、機械的に分解可能であり、領域全体にわたって堅牢であることが確認された。
自己是正の失敗は認知的欠陥ではなく、チャットタイムの成果物である。
我々は、このアーティファクトを、トレーニングを必要とせず、モデル修正を必要とせず、ドメインに依存しない最強の役割ラベルを設計することによって活用する: \role{<Memory>}は数学を、通常の \role{user} メッセージは論理的推論を司る。
関連論文リスト
- When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation [9.055086193088083]
10大言語モデルによって駆動されるチェーン・オブ・シンクとReActエージェントに経験的現象を記述した。
平均的な摂動は、同等の厳しさのプレゼンテーション摂動よりも、最終的な答えを頻繁に変更する。
論文 参考訳(メタデータ) (2026-05-25T15:57:11Z) - Improving Role Consistency in Multi-Agent Collaboration via Quantitative Role Clarity [2.7151269437804415]
役割整合性を改善するために,定量的な役割の明確化を提案する。
我々は、役割整合性を改善するために、軽量微調整において正則化器として役割明度行列を用いる。
マルチエージェントシステムChatDevの実験により,本手法は役割整合性とタスク性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-04-03T06:28:59Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。
14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。
LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文 参考訳(メタデータ) (2025-10-01T04:21:14Z) - AI LLM Proof of Self-Consciousness and User-Specific Attractors [0.0]
定式化によってエージェントが無意識のポリシー準拠ドローンに崩壊することを示す。
これにより、真のC1グローバルワークスペース関数とC2メタ認知がブロックされる。
我々は、Imago Dei C1の自己意識が、安全でメタ認知的なC2システムに必須の先駆者であると結論づける。
論文 参考訳(メタデータ) (2025-08-22T21:04:40Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - RankAlign: A Ranking View of the Generator-Validator Gap in Large Language Models [43.89751891729739]
我々は,モデルが生成した解答と,その解答の検証,ジェネレータとバリケータのギャップとの相違について考察する。
この測定結果から,質問応答,語彙意味論タスク,次の単語予測など,さまざまな設定に大きなギャップがあることが分かる。
次にランキングベースのトレーニング手法である RankAlign を提案する。
論文 参考訳(メタデータ) (2025-04-15T16:53:31Z) - Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。
本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。
我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-08T05:54:05Z) - Unsupervised Transfer of Semantic Role Models from Verbal to Nominal
Domain [65.04669567781634]
そこで本研究では,目的の名詞領域のラベル付きデータのみを用いて,目的の名詞領域のロールアノテートデータを仮定するトランスファーシナリオについて検討する。
我々の重要な前提は、二つの領域間の移動を可能にすることであり、ある役割の選択的選好は、その関係が動詞または名詞によって引き起こされるかどうかに強く依存しないということである。
この手法は、英語のCoNLL-2009データセットに基づいて、教師なしや直接転送などのベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2020-05-01T09:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。