論文の概要: Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning
- arxiv url: http://arxiv.org/abs/2510.10207v2
- Date: Tue, 14 Oct 2025 03:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 12:06:24.257383
- Title: Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning
- Title(参考訳): Adaptive Dual Reasoner: 大規模推論モデルはハイブリッド推論によって効果的に考えることができる
- Authors: Yujian Zhang, Keyu Chen, Zhifeng Shen, Ruizhi Qiao, Xing Sun,
- Abstract要約: 本稿では,2つの推論モード – 高速思考とスロー思考 – をサポートするアダプティブデュアル推論手法を提案する。
ADRは、推論中の文脈的複雑さに基づいて、これらのモードを交互に扱う。
最先端アプローチ間の推論性能と効率の効果的なバランスを実現する。
- 参考スコア(独自算出の注目度): 24.84164221980507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Long Reasoning Models (LRMs) have achieved superior performance on various reasoning scenarios, they often suffer from increased computational costs and inference latency caused by overthinking. To address these limitations, we propose Adaptive Dual Reasoner, which supports two reasoning modes: fast thinking and slow thinking. ADR dynamically alternates between these modes based on the contextual complexity during reasoning. ADR is trained in two stages: (1) A cold-start stage using supervised fine-tuning (SFT) to equip the model with the ability to integrate both fast and slow reasoning modes, in which we construct a hybrid reasoning dataset through a dedicated pipeline to provide large-scale supervision. (2) A reinforcement learning stage for optimizing reasoning effort, where we introduce Entropy-guided Hybrid Policy Optimization EHPO, an RL training framework employing an entropy-guided dynamic rollout strategy for branching at high-entropy units and a difficulty-aware penalty to balance fast and slow reasoning. Across challenging mathematical reasoning benchmarks, ADR achieves an effective balance between reasoning performance and efficiency among state-of-the-art approaches. Specifically, ADR yields a performance gain of up to 6.1%, while reducing the reasoning output length by 49.5% to 59.3%.
- Abstract(参考訳): Long Reasoning Models (LRM) は様々な推論シナリオにおいて優れた性能を保っているが、計算コストの増大と過度な考えによる推論遅延に悩まされることが多い。
これらの制約に対処するために、高速思考と遅い思考という2つの推論モードをサポートするAdaptive Dual Reasonerを提案する。
ADRは推論中の文脈的複雑さに基づいて、これらのモードを動的に切り替える。
ADRは,(1)教師付き微調整(SFT)を用いて,高速かつ低速な推論モードを組み込んだ冷間開始段階を訓練する。
2 エントロピー誘導型ハイブリッド政策最適化EHPO, 高エントロピーユニットでの分岐にエントロピー誘導型動的ロールアウト戦略を用いたRLトレーニングフレームワーク, 高速かつ低速な推論のバランスをとる難易度ペナルティを導入した。
挑戦的な数学的推論ベンチマーク全体において、ADRは推論性能と最先端のアプローチ間の効率の効果的なバランスを達成する。
具体的には、ADRのパフォーマンスは最大6.1%向上し、推算出力長は49.5%から59.3%減少する。
関連論文リスト
- Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation [14.501114943020589]
大規模推論モデル(LRM)は、拡張された推論トレースを通じて強力な性能を達成する。
LRMは低複雑さのクエリに対して過度な振る舞いを示すことが多い。
LRMにおける安定的適応的思考のための2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T02:49:36Z) - BARD: budget-aware reasoning distillation [25.725960386304646]
ロング・チェーン・オブ・ソート (Long Chain-of-Thought, CoT) 蒸留は推論能力をより小さな言語モデルに効果的に伝達する。
bftextBudget-Aware Reasoning Distillation (BARD) を提案する。
論文 参考訳(メタデータ) (2025-11-03T11:30:18Z) - DART: Difficulty-Adaptive Reasoning Truncation for Efficient Large Language Models [36.962276192354174]
textbfDARTは、問題の難易度に応じて思考長を調整する。
textbfTruncationフレームワークは、いつ考えるのをやめるかを学ぶ
論文 参考訳(メタデータ) (2025-11-03T02:41:20Z) - ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。
推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。
Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文 参考訳(メタデータ) (2025-02-22T14:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。