論文の概要: Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning
- arxiv url: http://arxiv.org/abs/2510.10207v1
- Date: Sat, 11 Oct 2025 13:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.842212
- Title: Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning
- Title(参考訳): Adaptive Dual Reasoner: 大規模推論モデルはハイブリッド推論によって効果的に考えることができる
- Authors: Yujian Zhang, Keyu Chen, Zhifeng Shen, Ruizhi Qiao, Xing Sun,
- Abstract要約: 本稿では,2つの推論モード – 高速思考とスロー思考 – をサポートするアダプティブデュアル推論手法を提案する。
ADRは、推論中の文脈的複雑さに基づいて、これらのモードを交互に扱う。
最先端アプローチ間の推論性能と効率の効果的なバランスを実現する。
- 参考スコア(独自算出の注目度): 24.84164221980507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Long Reasoning Models (LRMs) have achieved superior performance on various reasoning scenarios, they often suffer from increased computational costs and inference latency caused by overthinking. To address these limitations, we propose Adaptive Dual Reasoner, which supports two reasoning modes: fast thinking and slow thinking. ADR dynamically alternates between these modes based on the contextual complexity during reasoning. ADR is trained in two stages: (1) A cold-start stage using supervised fine-tuning (SFT) to equip the model with the ability to integrate both fast and slow reasoning modes, in which we construct a hybrid reasoning dataset through a dedicated pipeline to provide large-scale supervision. (2) A reinforcement learning stage for optimizing reasoning effort, where we introduce Entropy-guided Hybrid Policy Optimization EHPO, an RL training framework employing an entropy-guided dynamic rollout strategy for branching at high-entropy units and a difficulty-aware penalty to balance fast and slow reasoning. Across challenging mathematical reasoning benchmarks, ADR achieves an effective balance between reasoning performance and efficiency among state-of-the-art approaches. Specifically, ADR yields a performance gain of up to 6.1%, while reducing the reasoning output length by 49.5% to 59.3%.
- Abstract(参考訳): Long Reasoning Models (LRM) は様々な推論シナリオにおいて優れた性能を保っているが、計算コストの増大と過度な考えによる推論遅延に悩まされることが多い。
これらの制約に対処するために、高速思考と遅い思考という2つの推論モードをサポートするAdaptive Dual Reasonerを提案する。
ADRは推論中の文脈的複雑さに基づいて、これらのモードを動的に切り替える。
ADRは,(1)教師付き微調整(SFT)を用いて,高速かつ低速な推論モードを組み込んだ冷間開始段階を訓練する。
2 エントロピー誘導型ハイブリッド政策最適化EHPO, 高エントロピーユニットでの分岐にエントロピー誘導型動的ロールアウト戦略を用いたRLトレーニングフレームワーク, 高速かつ低速な推論のバランスをとる難易度ペナルティを導入した。
挑戦的な数学的推論ベンチマーク全体において、ADRは推論性能と最先端のアプローチ間の効率の効果的なバランスを達成する。
具体的には、ADRのパフォーマンスは最大6.1%向上し、推算出力長は49.5%から59.3%減少する。
関連論文リスト
- Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。
推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。
Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文 参考訳(メタデータ) (2025-02-22T14:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。