論文の概要: How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?
- arxiv url: http://arxiv.org/abs/2506.10979v1
- Date: Thu, 12 Jun 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.909053
- Title: How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?
- Title(参考訳): 不愉快な思考からモデルを見つけ出すにはどうしたらいいのか?
- Authors: Sohee Yang, Sang-Woo Lee, Nora Kassner, Daniela Gottesman, Sebastian Riedel, Mor Geva,
- Abstract要約: 本研究では,4種類の不愉快な思考から推論モデルがどのように識別し,回復するかを検討する。
モデルは、最も無害な思考を特定するのに効果的であるが、それらが思考プロセスに注入されると、同じ思考から回復することが困難であることを示す。
- 参考スコア(独自算出の注目度): 31.755709525282914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reasoning models show the ability to reflect, backtrack, and self-validate their reasoning, which is crucial in spotting mistakes and arriving at accurate solutions. A natural question that arises is how effectively models can perform such self-reevaluation. We tackle this question by investigating how well reasoning models identify and recover from four types of unhelpful thoughts: uninformative rambling thoughts, thoughts irrelevant to the question, thoughts misdirecting the question as a slightly different question, and thoughts that lead to incorrect answers. We show that models are effective at identifying most unhelpful thoughts but struggle to recover from the same thoughts when these are injected into their thinking process, causing significant performance drops. Models tend to naively continue the line of reasoning of the injected irrelevant thoughts, which showcases that their self-reevaluation abilities are far from a general "meta-cognitive" awareness. Moreover, we observe non/inverse-scaling trends, where larger models struggle more than smaller ones to recover from short irrelevant thoughts, even when instructed to reevaluate their reasoning. We demonstrate the implications of these findings with a jailbreak experiment using irrelevant thought injection, showing that the smallest models are the least distracted by harmful-response-triggering thoughts. Overall, our findings call for improvement in self-reevaluation of reasoning models to develop better reasoning and safer systems.
- Abstract(参考訳): 最近の推論モデルは、彼らの推論を反映し、バックトラックし、自己検証する能力を示している。
自然の疑問は、モデルがいかに効果的にそのような自己評価を行うことができるかである。
そこで本研究では,非形式的思考,非形式的思考,問題に無関係な思考,質問をわずかに異なる質問として誤指示する思考,誤った回答につながる思考という,4つの不完全な思考から推論モデルがいかにうまく識別し,回復するかを検討する。
モデルは、最も無害な思考を特定するのに効果的であるが、それらが思考プロセスに注入されると、同じ思考から回復することが困難であることを示し、大きなパフォーマンス低下を引き起こす。
モデルは、自己評価能力が一般的な「メタ認知的」な認識からかけ離れていることを示す無関係な思考の推論の行を、否定的に継続する傾向がある。
さらに,より大規模なモデルでは,推論の再評価を指示された場合においても,短い無関係な思考から回復するために,より小さなモデルで苦労する非逆スケーリングの傾向を観察する。
本研究は無関係な思考注入を用いてジェイルブレイク実験を行い,最も小さなモデルが有害な反応と引き起こす思考に最も注意を払わないことを示す。
全体として、より優れた推論とより安全なシステムを開発するための推論モデルの自己評価の改善が求められている。
関連論文リスト
- Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models [103.03315678501546]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - Internal Bias in Reasoning Models leads to Overthinking [58.817405319722596]
推論モデルにおける過度な考えは、入力テキストに対する内部バイアスから生じる可能性があることを初めて示します。
元の入力部をマスクアウトすることで、内部バイアスの影響を効果的に緩和することができ、推論長を31%-53%削減することができる。
論文 参考訳(メタデータ) (2025-05-22T09:35:52Z) - Thinking Out Loud: Do Reasoning Models Know When They're Right? [19.776645881640178]
大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的な機能を示した。
本研究では,LRMが他のモデル行動とどのように相互作用するかを,言語的信頼度を解析することによって検討する。
推論モデルには、知識境界に対する認識の低下がある可能性がある。
論文 参考訳(メタデータ) (2025-04-09T03:58:19Z) - The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.27754404942364]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。
本稿では, LRMにおける過度な考察を紹介し, 分析する。
解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (2025-02-12T09:23:26Z) - Contrastive Chain-of-Thought Prompting [74.10511560147293]
本稿では,言語モデル推論を強化するために,思考の対照的な連鎖を提案する。
従来の思考の連鎖と比較して,本手法は妥当かつ無効な推論実証を提供する。
推論ベンチマーク実験により、思考の対照的な連鎖は、思考の連鎖の促進に役立てることができることを示した。
論文 参考訳(メタデータ) (2023-11-15T18:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。