論文の概要: From Long to Short: LLMs Excel at Trimming Own Reasoning Chains
- arxiv url: http://arxiv.org/abs/2509.06174v1
- Date: Sun, 07 Sep 2025 19:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.890529
- Title: From Long to Short: LLMs Excel at Trimming Own Reasoning Chains
- Title(参考訳): 長方から短方へ:LLMs Excelが独自の推論チェインをトリミング
- Authors: Wei Han, Geng Zhan, Sicheng Yu, Chenyu Wang, Bryan Hooi,
- Abstract要約: O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
- 参考スコア(独自算出の注目度): 48.692414597960244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: O1/R1 style large reasoning models (LRMs) signal a substantial leap forward over conventional instruction-following LLMs. By applying test-time scaling to generate extended reasoning paths, they establish many SOTAs across a wide range of complex reasoning tasks. However, recent studies show that LRMs are prone to suffer from overthinking -- the tendency to overcomplicate simple problems, leading to excessive strategy switching and long, convoluted reasoning traces that hinder their interpretability. To mitigate this issue, we conduct a systematic investigation into the reasoning efficiency of a broad set of LRMs and uncover a common dilemma: the difficulty in balancing multiple generation objectives such as correctness and brevity. Based on this discovery, we propose a test-time scaling method, EDIT (Efficient Dynamic Inference Trimming), which efficiently guides LRMs to identify the shortest correct reasoning paths at test time. EDIT employs constraint-guided generation while jointly tracking length and answer distributions under varying constraints, allowing it to select responses that strike an optimal balance between conciseness and correctness. Extensive experiments across diverse models and datasets show that EDIT substantially enhance the reasoning efficiency, producing compact yet informative outputs that improve readability and user experience.
- Abstract(参考訳): O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
拡張された推論パスを生成するためにテスト時間スケーリングを適用することで、幅広い複雑な推論タスクにわたって多くのSOTAを確立する。
しかし、最近の研究では、LEMは過度に考え直される傾向があることが示されており、単純な問題を過度に複雑化する傾向があり、過剰な戦略変更と、その解釈可能性を妨げる長い複雑な推論トレースにつながっている。
この問題を軽減するため, 広義のLEMの推論効率を体系的に検討し, 共通ジレンマを明らかにする。
そこで本研究では, LRMを効率よく誘導し, テスト時間における最短正しい推論経路を同定する, EDIT(Efficient Dynamic Inference Trimming)を提案する。
EDITは制約誘導生成を使用し、長さと答えの分布を様々な制約の下で共同で追跡し、簡潔さと正しさの最適なバランスを打つ応答を選択できる。
多様なモデルやデータセットにわたる大規模な実験により、EDITは推論効率を大幅に向上し、可読性とユーザエクスペリエンスを向上させるコンパクトで情報に富んだアウトプットを生み出している。
関連論文リスト
- CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models [29.95434387343843]
本稿では,3つのコンポーネントによる長さバイアスを緩和する統合フレームワークを提案する。
CoLDは一貫して報酬長相関を減少させ、ステップ選択の精度を改善し、より簡潔で論理的に妥当な推論を促進する。
論文 参考訳(メタデータ) (2025-07-21T15:07:59Z) - Towards Concise and Adaptive Thinking in Large Reasoning Models: A Survey [8.736170026262279]
OpenAI o1やDeepSeek R1のような大きな推論モデル(LRM)は、複雑な推論タスクにおいて印象的なパフォーマンスを示している。
これらのモデルもまた、不要な長さと冗長な推論チェーンを生成するという大きな課題に直面しています。
論文 参考訳(メタデータ) (2025-07-13T14:51:59Z) - Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization [16.51303604678232]
Reasoning Compression ThroUgh Stepwise Trials (ReCUT) は推論軌道の精度と長さのバランスをとるための新しい手法である。
複数の数学推論データセットとバックボーンモデルによる実験結果から、ReCUTは推論の長さを約30~50%削減することが示された。
論文 参考訳(メタデータ) (2025-06-12T15:43:01Z) - AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models [56.063571989395946]
推論可能な大規模言語モデル(LLM)は、複雑な推論タスクにおいて強力な性能を示す。
最近のアプローチでは、長い推論や短い推論をいつ適用すべきかを手動で決めることによって、この問題に対処しようとしている。
本稿では,LLMが生成した推論経路を動的に圧縮できる動的かつモデルに依存しないフレームワークであるAuto Long-Short Reasoning (AutoL2S)を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:53Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。
懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。
この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-03-27T15:36:30Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。