論文の概要: DART: Difficulty-Adaptive Reasoning Truncation for Efficient Large Language Models
- arxiv url: http://arxiv.org/abs/2511.01170v1
- Date: Mon, 03 Nov 2025 02:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.089512
- Title: DART: Difficulty-Adaptive Reasoning Truncation for Efficient Large Language Models
- Title(参考訳): DART: 効率的な大規模言語モデルのための難易度適応型推論トランケーション
- Authors: Ruofan Zhang, Bin Xia, Zhen Cheng, Cairen Jian, Minglun Yang, Ngai Wong, Yuan Cheng,
- Abstract要約: textbfDARTは、問題の難易度に応じて思考長を調整する。
textbfTruncationフレームワークは、いつ考えるのをやめるかを学ぶ
- 参考スコア(独自算出の注目度): 36.962276192354174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive reasoning is essential for aligning the computational effort of large language models (LLMs) with the intrinsic difficulty of problems. Current chain-of-thought methods boost reasoning ability but indiscriminately generate long explanations, leading to evident inefficiency. However, existing reinforcement learning approaches to adaptive thinking remain unstable and heavily reward-dependent. Here we propose \textbf{DART}, a supervised \textbf{D}ifficulty-\textbf{A}daptive \textbf{R}easoning \textbf{T}runcation framework that adjusts thinking length according to problem difficulty. By distilling concise reasoning patterns from stronger models, interpolating them into a continuum of reasoning styles, and curating optimal training data that balances correctness and compactness, DART learns when to ``stop thinking''. Across multiple mathematical benchmarks, experimental results demonstrate its remarkable efficiency while preserving or improving accuracy, achieving a significant 81.2\% reasoning truncation (DeepSeek-R1-Distill-Qwen-7B on GSM8K dataset) with 5.33$\times$ computational acceleration. DART provides a stable and general paradigm for efficient reasoning, advancing the development of adaptive intelligence in LLMs.
- Abstract(参考訳): 適応推論は、大きな言語モデル(LLM)の計算努力と問題の本質的な難しさの整合に不可欠である。
現在のチェーン・オブ・シント法は推論能力を高めるが、長い説明を無差別に生成し、明らかな非効率性をもたらす。
しかし、適応的思考に対する既存の強化学習アプローチは不安定であり、報酬に依存している。
ここでは,教師付き \textbf{D}ifficulty-\textbf{A}daptive \textbf{R}easoning \textbf{T}runcation framework である \textbf{D}ifficulty-\textbf{A}daptive \textbf{R}easoning \textbf{T}runcation framework を提案する。
より強力なモデルから簡潔な推論パターンを蒸留し、それらを推論スタイルの連続体に補間し、正確性とコンパクト性のバランスをとる最適なトレーニングデータをキュレートすることで、DARTは「ストップ思考」のタイミングを学ぶ。
複数の数学ベンチマークにおいて、実験結果は精度を保ったり改善したりしながら顕著な効率を示し、計算加速度5.33$\times$で81.2\%の推理トランケーション(GSM8Kデータセット上のDeepSeek-R1-Distill-Qwen-7B)を達成した。
DARTは効率的な推論のための安定的で一般的なパラダイムを提供し、LLMにおける適応知能の開発を推進している。
関連論文リスト
- DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。