論文の概要: AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
- arxiv url: http://arxiv.org/abs/2504.21659v1
- Date: Wed, 30 Apr 2025 14:01:45 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 15:43:41.099665
- Title: AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
- Title(参考訳): AdaR1:双方向適応推論最適化によるLong-CoTからHybrid-CoT
- Authors: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen,
- Abstract要約: 適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
- 参考スコア(独自算出の注目度): 86.56120216550232
- License:
- Abstract: Recently, long-thought reasoning models achieve strong performance on complex reasoning tasks, but often incur substantial inference overhead, making efficiency a critical concern. Our empirical analysis reveals that the benefit of using Long-CoT varies across problems: while some problems require elaborate reasoning, others show no improvement, or even degraded accuracy. This motivates adaptive reasoning strategies that tailor reasoning depth to the input. However, prior work primarily reduces redundancy within long reasoning paths, limiting exploration of more efficient strategies beyond the Long-CoT paradigm. To address this, we propose a novel two-stage framework for adaptive and efficient reasoning. First, we construct a hybrid reasoning model by merging long and short CoT models to enable diverse reasoning styles. Second, we apply bi-level preference training to guide the model to select suitable reasoning styles (group-level), and prefer concise and correct reasoning within each style group (instance-level). Experiments demonstrate that our method significantly reduces inference costs compared to other baseline approaches, while maintaining performance. Notably, on five mathematical datasets, the average length of reasoning is reduced by more than 50%, highlighting the potential of adaptive strategies to optimize reasoning efficiency in large language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1
- Abstract(参考訳): 近年、長い思考推論モデルでは複雑な推論タスクにおいて強い性能が得られているが、しばしばかなりの推論オーバーヘッドが生じるため、効率が重要な問題となっている。
我々の経験的分析によると、Long-CoTを使うことの利点は様々な問題によって異なる。
これは、入力への推論深度を調整する適応的推論戦略を動機付けている。
しかしながら、事前の作業は、主に長い推論経路内での冗長性を減少させ、Long-CoTパラダイムを超えたより効率的な戦略の探索を制限する。
そこで本研究では,適応的かつ効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを融合してハイブリッド推論モデルを構築し、多様な推論スタイルを実現する。
第2に、モデルに適切な推論スタイル(グループレベル)を選択し、各スタイルグループ(インスタンスレベル)内で簡潔で正しい推論を好むように誘導するために、二段階の選好トレーニングを適用する。
実験により,本手法は性能を保ちながら,他のベースライン手法と比較して推論コストを大幅に削減することを示した。
特に5つの数学的データセットでは、推論の平均長を50%以上削減し、大規模言語モデルにおける推論効率を最適化するための適応戦略の可能性を強調している。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/AdaR1で公開されます。
関連論文リスト
- ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.170732359523702]
OpenAI o3やDeepSeek-R1のような推論モデルは、推論集約的なタスクに対して強力なパフォーマンスを示している。
長い推論トレースは、複雑な問題に対する解経路のより徹底的な探索を促進する。
ShorterBetterは、推論言語モデルによる最適なCoT長の発見を可能にする、シンプルで効果的な強化学習手法である。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Efficient Reasoning for LLMs through Speculative Chain-of-Thought [44.76494056102963]
OpenAI-o1やDeepseek-R1のような大きな推論言語モデルは、タスク解決能力が優れていたため、広く注目を集めている。
効率的な推論のための既存の方法は、主にモデルパラメータの数を減らしたり、チェーンオブ思考の長さを短縮することに焦点を当てている。
本稿では,平均推論速度の高速化により推理遅延を他の視点から低減するSCoT(Speculative Chain-of-Thought)を提案する。
論文 参考訳(メタデータ) (2025-04-27T03:56:39Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [31.189242663680695]
本稿では,問題の難易度に基づいて,モデルがチェーン・オブ・ソート(CoT)の長さを自律的に調整できる新しいフレームワークであるDASTを紹介する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。
推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。
Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文 参考訳(メタデータ) (2025-02-22T14:13:37Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller
Language Models [18.96271708412086]
CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。
本稿では,ダイアログ誘導型Chain-of-Thought(DialCoT)について紹介する。
論文 参考訳(メタデータ) (2023-10-08T08:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。