Fugu-MT 論文翻訳(概要): The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

論文の概要: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

arxiv url: http://arxiv.org/abs/2505.22017v2
Date: Tue, 14 Oct 2025 09:02:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-15 14:23:56.755826
Title: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
Title（参考訳）: 第二思想の価格:大規模言語モデルにおける推論効率の評価について
Authors: Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun,
Abstract要約: モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。 GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
参考スコア（独自算出の注目度）: 54.88805865447848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
Abstract（参考訳）: 強化学習と後方チェックのCoTで訓練された最近の思考モデルは、しばしば過度に長いアウトプットを生成し、計算を浪費する。既存の評価はトークン効率に基づいており、問題の難易度や中間計算コストを無視しているため、不完全な見方を与える。我々は、推論効率を思考と指示モデルの相対的な尺度として定式化し、命令モデルを最小効果ベースラインとして扱う。 4つの思考モデルと複数のベンチマークの体系的な研究は、2つの一貫したパターンを明らかにしている。 (i)モデルが全体として高い効率を達成するよう指示し、 (II)問題の難しさは効率に影響を与え、思考モデルは簡単な問題では計算を浪費するが、難しい問題では価値を提供する。この知見に基づいて,簡単な2段階パイプラインであるCOTHINKを提案する。 GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。

関連論文リスト

TACLer: Tailored Curriculum Reinforcement Learning for Efficient Reasoning [24.04507196574173]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。本稿では,モデル化されたカリキュラム強化学習フレームワークであるTACLerを提案する。 TACLerには2つの中核的なコンポーネントがある: (i) モデルにどの知識が欠けているのかを判断し、段階的に学ぶ必要がある調整されたカリキュラム学習; (ii) シンキングモードを有効にまたは無効にすることで正確性と効率のバランスをとるハイブリッド思考/ノーシンキング推論パラダイム。
論文参考訳（メタデータ） (2026-01-29T13:40:35Z)
Optimizing Reasoning Efficiency through Prompt Difficulty Prediction [14.470330195517903]
推論言語モデルは複雑なタスクでうまく機能するが、そのサイズと長い推論トレースのためにデプロイするのにコストがかかる。本稿では,各問題を解きそうな最小のモデルに割り当てるルーティング手法を提案し,精度を犠牲にすることなく計算量を削減した。
論文参考訳（メタデータ） (2025-11-05T19:14:53Z)
Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。 TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文参考訳（メタデータ） (2025-10-02T02:00:20Z)
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning [51.946959481392064]
大規模推論モデル (LRM) は複雑な問題解決において顕著な能力を示している。難しい問題の生成をスケールするために設計されたパイプラインであるScaleDiffを提案する。我々のパイプラインは、より大きくて高価な教師モデルに頼ることなく、高度な推論能力を効果的に伝達できることを示します。
論文参考訳（メタデータ） (2025-09-25T12:22:44Z)
Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文参考訳（メタデータ） (2025-07-19T00:06:13Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Answer Convergence as a Signal for Early Stopping in Reasoning [7.60104447055814]
大型言語モデル(LLM)における思考の連鎖(CoT)の促進提案手法は,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法である。
論文参考訳（メタデータ） (2025-06-03T07:20:54Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [19.731871225975926]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文参考訳（メタデータ） (2025-05-16T04:01:57Z)
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文参考訳（メタデータ） (2025-04-17T22:16:30Z)
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging [17.038807261969033]
Long-to-Short (L2S) 推論は推論深度と実用効率のバランスをとることを目的としている。モデルマージは、System 1モデルの迅速な思考能力とSystem 2モデルの方法論的推論を統合することで、コスト効率が高く堅牢な代替手段を提供する。実験の結果,モデルマージにより平均応答長を最大55%削減できることがわかった。
論文参考訳（メタデータ） (2025-03-26T15:34:37Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文参考訳（メタデータ） (2023-10-09T13:29:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。