論文の概要: Large Reasoning Models are not thinking straight: on the unreliability of thinking trajectories
- arxiv url: http://arxiv.org/abs/2507.00711v1
- Date: Tue, 01 Jul 2025 12:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.626452
- Title: Large Reasoning Models are not thinking straight: on the unreliability of thinking trajectories
- Title(参考訳): 大規模推論モデルは直観的ではない:思考軌跡の不確実性について
- Authors: Jhouben Cuesta-Ramirez, Samuel Beaussant, Mehdi Mounsif,
- Abstract要約: 強化学習(RL)を通じてトレーニングされたLarge Language Models(LLMs)は、最近、推論ベンチマークで印象的な結果を得た。
しかし、成長する証拠は、これらのモデルがしばしば長いが効果のない思考の連鎖(CoT)を生成することを示している。
モデルが明示的に提供しても正しい解を無視し、代わりに不要な推論ステップを生成し続けるという、過度な考えの新たな証拠を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) trained via Reinforcement Learning (RL) have recently achieved impressive results on reasoning benchmarks. Yet, growing evidence shows that these models often generate longer but ineffective chains of thought (CoTs), calling into question whether benchmark gains reflect real reasoning improvements. We present new evidence of overthinking, where models disregard correct solutions even when explicitly provided, instead continuing to generate unnecessary reasoning steps that often lead to incorrect conclusions. Experiments on three state-of-the-art models using the AIME2024 math benchmark reveal critical limitations in these models ability to integrate corrective information, posing new challenges for achieving robust and interpretable reasoning.
- Abstract(参考訳): 強化学習(RL)を通じてトレーニングされたLarge Language Models(LLMs)は、最近、推論ベンチマークで印象的な結果を得た。
しかし、これらのモデルが長いが効果の低い思考の連鎖(CoT)をしばしば生み出すことを示す証拠が増えている。
我々は、モデルが明示的に提供されても正しい解を無視し、しばしば誤った結論につながる不要な推論ステップを生成し続けるという、過度な考えの新たな証拠を提示する。
AIME2024ベンチマークを用いた3つの最先端モデルの実験では、これらのモデルにおいて修正情報を統合する能力の限界が示され、堅牢で解釈可能な推論を達成するための新たな課題が浮かび上がっている。
関連論文リスト
- Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Reasoning about Uncertainty: Do Reasoning Models Know When They Don't Know? [7.423494663010787]
推論言語モデルは、多くの挑戦的なベンチマークで最先端(SOTA)レコードを設定している。
従来の言語モデルと同様に、推論モデルは不正確で確実な応答を生成する傾向があります。
これらのモデルをいつ、どの程度信頼するかを知ることは、現実のアプリケーションにおける推論モデルの安全なデプロイに不可欠である。
論文 参考訳(メタデータ) (2025-06-22T21:46:42Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [23.34070841541423]
LS-Mixture SFT(Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning)を提案する。
LS-Mixture SFTでトレーニングしたモデルと直接SFTでトレーニングしたモデルでは,平均精度が2.3%向上した。
この研究は、教師付き微調整によって推論能力を持つ非推論モデルを実現するアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-06T12:18:11Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。