論文の概要: Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?
- arxiv url: http://arxiv.org/abs/2504.06514v2
- Date: Fri, 11 Apr 2025 02:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 10:55:45.136999
- Title: Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?
- Title(参考訳): 失敗の前提は過剰思考を悪化させる:Reasoning Modelsは批判的な思考スキルを失うか?
- Authors: Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou,
- Abstract要約: 不十分な前提条件 (MiP) を持つ不適切な質問に対して, LLM の応答長が劇的に増加することが判明した。
この新たなシナリオは、MiP-Overthinking(英語版)と呼ばれる一般的な過剰思考問題をかなり悪化させます。
驚いたことに、LSMは特に推論の訓練を受けていないため、MiPのシナリオではより優れたパフォーマンスを示し、不適切なクエリを素早く識別するより短いレスポンスを生み出した。
- 参考スコア(独自算出の注目度): 27.374491920521745
- License:
- Abstract: We find that the response length of reasoning LLMs, whether trained by reinforcement learning or supervised learning, drastically increases for ill-posed questions with missing premises (MiP), ending up with redundant and ineffective thinking. This newly introduced scenario exacerbates the general overthinking issue to a large extent, which we name as the MiP-Overthinking. Such failures are against the ``test-time scaling law'' but have been widely observed on multiple datasets we curated with MiP, indicating the harm of cheap overthinking and a lack of critical thinking. Surprisingly, LLMs not specifically trained for reasoning exhibit much better performance on the MiP scenario, producing much shorter responses that quickly identify ill-posed queries. This implies a critical flaw of the current training recipe for reasoning LLMs, which does not encourage efficient thinking adequately, leading to the abuse of thinking patterns. To further investigate the reasons behind such failures, we conduct fine-grained analyses of the reasoning length, overthinking patterns, and location of critical thinking on different types of LLMs. Moreover, our extended ablation study reveals that the overthinking is contagious through the distillation of reasoning models' responses. These results improve the understanding of overthinking and shed novel insights into mitigating the problem.
- Abstract(参考訳): 強化学習や教師付き学習によって訓練された LLM の応答長は,不十分な前提 (MiP) による不適切な質問に対して劇的に増加し,結果として冗長で非効率な思考に繋がることがわかった。
この新たなシナリオは、MiP-Overthinking(英語版)と呼ばれる一般的な過剰思考問題をかなり悪化させます。
このような失敗は‘テストタイムスケーリング法’に反するものですが、私たちがMiPでキュレートした複数のデータセットで広く観測されています。
驚いたことに、LSMは特に推論の訓練を受けていないため、MiPのシナリオではより優れたパフォーマンスを示し、不適切なクエリを素早く識別するより短いレスポンスを生み出した。
これは、LLMを推論するための現在のトレーニングレシピの重大な欠陥であり、効率的な思考を適切に促さないため、思考パターンの悪用につながることを意味する。
このような失敗の背景となる理由を更に解明するために,様々なタイプのLSMにおける推論長,過度なパターン,批判的思考の場所を詳細に分析する。
さらに, 拡張アブレーション実験により, 推理モデルの反応を蒸留することにより, 過度な思考が伝染していることが判明した。
これらの結果は、過度に考えることの理解を改善し、問題を緩和するための新しい洞察を隠蔽する。
関連論文リスト
- The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.27754404942364]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。
本稿では, LRMにおける過度な考察を紹介し, 分析する。
解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (2025-02-12T09:23:26Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。
幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。
本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T05:43:07Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Tree of Uncertain Thoughts Reasoning for Large Language Models [19.926757833392212]
大規模言語モデル(LLM)に適した推論フレームワークTouT(Tree of Uncertain Thoughts)を紹介します。
我々のTouTはモンテカルロ・ドロップアウトを効果的に利用し、これらの中間段階におけるLLMの多様な局所応答に関連する不確実性スコアを定量化する。
我々は,ゲーム・オブ・24(Game of 24)とミニ・クロスワード(Mini Crosswords)の2つの要求する計画課題について,厳密な実験を行った。
論文 参考訳(メタデータ) (2023-09-14T13:14:51Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。