論文の概要: DART: Difficulty-Adaptive Reasoning Truncation for Efficient Large Language Models
- arxiv url: http://arxiv.org/abs/2511.01170v1
- Date: Mon, 03 Nov 2025 02:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.089512
- Title: DART: Difficulty-Adaptive Reasoning Truncation for Efficient Large Language Models
- Title(参考訳): DART: 効率的な大規模言語モデルのための難易度適応型推論トランケーション
- Authors: Ruofan Zhang, Bin Xia, Zhen Cheng, Cairen Jian, Minglun Yang, Ngai Wong, Yuan Cheng,
- Abstract要約: textbfDARTは、問題の難易度に応じて思考長を調整する。
textbfTruncationフレームワークは、いつ考えるのをやめるかを学ぶ
- 参考スコア(独自算出の注目度): 36.962276192354174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive reasoning is essential for aligning the computational effort of large language models (LLMs) with the intrinsic difficulty of problems. Current chain-of-thought methods boost reasoning ability but indiscriminately generate long explanations, leading to evident inefficiency. However, existing reinforcement learning approaches to adaptive thinking remain unstable and heavily reward-dependent. Here we propose \textbf{DART}, a supervised \textbf{D}ifficulty-\textbf{A}daptive \textbf{R}easoning \textbf{T}runcation framework that adjusts thinking length according to problem difficulty. By distilling concise reasoning patterns from stronger models, interpolating them into a continuum of reasoning styles, and curating optimal training data that balances correctness and compactness, DART learns when to ``stop thinking''. Across multiple mathematical benchmarks, experimental results demonstrate its remarkable efficiency while preserving or improving accuracy, achieving a significant 81.2\% reasoning truncation (DeepSeek-R1-Distill-Qwen-7B on GSM8K dataset) with 5.33$\times$ computational acceleration. DART provides a stable and general paradigm for efficient reasoning, advancing the development of adaptive intelligence in LLMs.
- Abstract(参考訳): 適応推論は、大きな言語モデル(LLM)の計算努力と問題の本質的な難しさの整合に不可欠である。
現在のチェーン・オブ・シント法は推論能力を高めるが、長い説明を無差別に生成し、明らかな非効率性をもたらす。
しかし、適応的思考に対する既存の強化学習アプローチは不安定であり、報酬に依存している。
ここでは,教師付き \textbf{D}ifficulty-\textbf{A}daptive \textbf{R}easoning \textbf{T}runcation framework である \textbf{D}ifficulty-\textbf{A}daptive \textbf{R}easoning \textbf{T}runcation framework を提案する。
より強力なモデルから簡潔な推論パターンを蒸留し、それらを推論スタイルの連続体に補間し、正確性とコンパクト性のバランスをとる最適なトレーニングデータをキュレートすることで、DARTは「ストップ思考」のタイミングを学ぶ。
複数の数学ベンチマークにおいて、実験結果は精度を保ったり改善したりしながら顕著な効率を示し、計算加速度5.33$\times$で81.2\%の推理トランケーション(GSM8Kデータセット上のDeepSeek-R1-Distill-Qwen-7B)を達成した。
DARTは効率的な推論のための安定的で一般的なパラダイムを提供し、LLMにおける適応知能の開発を推進している。
関連論文リスト
- Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation [14.501114943020589]
大規模推論モデル(LRM)は、拡張された推論トレースを通じて強力な性能を達成する。
LRMは低複雑さのクエリに対して過度な振る舞いを示すことが多い。
LRMにおける安定的適応的思考のための2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T02:49:36Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning [24.84164221980507]
本稿では,2つの推論モード – 高速思考とスロー思考 – をサポートするアダプティブデュアル推論手法を提案する。
ADRは、推論中の文脈的複雑さに基づいて、これらのモードを交互に扱う。
最先端アプローチ間の推論性能と効率の効果的なバランスを実現する。
論文 参考訳(メタデータ) (2025-10-11T13:14:17Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。