Fugu-MT 論文翻訳(概要): AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization

論文の概要: AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization

arxiv url: http://arxiv.org/abs/2504.21659v1
Date: Wed, 30 Apr 2025 14:01:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 18:29:53.894173
Title: AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
Title（参考訳）: AdaR1:双方向適応推論最適化によるLong-CoTからHybrid-CoT
Authors: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen,
Abstract要約: 適応的で効率的な推論のための新しい2段階のフレームワークを提案する。まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
参考スコア（独自算出の注目度）: 86.56120216550232
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, long-thought reasoning models achieve strong performance on complex reasoning tasks, but often incur substantial inference overhead, making efficiency a critical concern. Our empirical analysis reveals that the benefit of using Long-CoT varies across problems: while some problems require elaborate reasoning, others show no improvement, or even degraded accuracy. This motivates adaptive reasoning strategies that tailor reasoning depth to the input. However, prior work primarily reduces redundancy within long reasoning paths, limiting exploration of more efficient strategies beyond the Long-CoT paradigm. To address this, we propose a novel two-stage framework for adaptive and efficient reasoning. First, we construct a hybrid reasoning model by merging long and short CoT models to enable diverse reasoning styles. Second, we apply bi-level preference training to guide the model to select suitable reasoning styles (group-level), and prefer concise and correct reasoning within each style group (instance-level). Experiments demonstrate that our method significantly reduces inference costs compared to other baseline approaches, while maintaining performance. Notably, on five mathematical datasets, the average length of reasoning is reduced by more than 50%, highlighting the potential of adaptive strategies to optimize reasoning efficiency in large language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1
Abstract（参考訳）: 近年、長い思考推論モデルでは複雑な推論タスクにおいて強い性能が得られているが、しばしばかなりの推論オーバーヘッドが生じるため、効率が重要な問題となっている。我々の経験的分析によると、Long-CoTを使うことの利点は様々な問題によって異なる。これは、入力への推論深度を調整する適応的推論戦略を動機付けている。しかしながら、事前の作業は、主に長い推論経路内での冗長性を減少させ、Long-CoTパラダイムを超えたより効率的な戦略の探索を制限する。そこで本研究では,適応的かつ効率的な推論のための新しい2段階のフレームワークを提案する。まず、長いCoTモデルと短いCoTモデルを融合してハイブリッド推論モデルを構築し、多様な推論スタイルを実現する。第2に、モデルに適切な推論スタイル(グループレベル)を選択し、各スタイルグループ(インスタンスレベル)内で簡潔で正しい推論を好むように誘導するために、二段階の選好トレーニングを適用する。実験により,本手法は性能を保ちながら,他のベースライン手法と比較して推論コストを大幅に削減することを示した。特に5つの数学的データセットでは、推論の平均長を50%以上削減し、大規模言語モデルにおける推論効率を最適化するための適応戦略の可能性を強調している。私たちのコードはもうすぐhttps://github.com/StarDewXXX/AdaR1で公開されます。

関連論文リスト

Neural Chain-of-Thought Search: Searching the Optimal Reasoning Path to Enhance Large Language Models [61.55758048622473]
最適思考戦略の動的探索として推論を再構成するフレームワークであるNeural Chain-of-Thought Search (NCoTS)を導入する。解空間を定量的に特徴づけることで、標準出力よりも正確かつ簡潔なスパース優良推論経路の存在を明らかにする。
論文参考訳（メタデータ） (2026-01-16T14:38:18Z)
Reasoning Pattern Alignment Merging for Adaptive Reasoning [48.347817456299104]
Reasoning Pattern Alignment Merging (RPAM) RPAMは、クエリ適応推論を容易にする機能アライメントに基づく階層的なモデルマージフレームワークである。広く使用されている7つの推論ベンチマークの実験により、RPAMは強い性能を維持しながら推論コストを大幅に削減することが示された。
論文参考訳（メタデータ） (2026-01-07T01:36:39Z)
Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization [26.462701299259248]
大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通じて複雑なタスクに強い性能を示す。長いアウトプットは計算コストを増大させ、過度に考え直し、推論の有効性と効率のバランスをとる上での課題を提起する。本稿では, LRMの生成時間を削減するための効率的な手法について検討する。
論文参考訳（メタデータ） (2025-08-13T20:00:09Z)
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。 GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-06-18T21:15:59Z)
AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models [56.063571989395946]
推論可能な大規模言語モデル(LLM)は、複雑な推論タスクにおいて強力な性能を示す。最近のアプローチでは、長い推論や短い推論をいつ適用すべきかを手動で決めることによって、この問題に対処しようとしている。本稿では,LLMが生成した推論経路を動的に圧縮できる動的かつモデルに依存しないフレームワークであるAuto Long-Short Reasoning (AutoL2S)を提案する。
論文参考訳（メタデータ） (2025-05-28T17:59:53Z)
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文参考訳（メタデータ） (2025-05-27T20:59:29Z)
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.575411507835973]
大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。本稿では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文参考訳（メタデータ） (2025-05-26T15:08:51Z)
Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文参考訳（メタデータ） (2025-05-23T13:38:56Z)
T$^2$: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering [49.5489716597489]
T$2$: Think-to-Thinkは質問の複雑さに基づいて推論深度を動的に適応する新しいフレームワークである。 T$2$は、質問を構造的要素に分解し、候補推論戦略と同じような例を生成し、これらの戦略を複数の基準に対して評価し、元の質問に最も適切な戦略を適用する、という4つの重要なステップで機能する。
論文参考訳（メタデータ） (2025-05-23T03:18:02Z)
Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning [27.498043430208085]
チェーン・オブ・ソート(CoT)推論への過剰依存はモデル性能を損なう可能性がある。我々はCAR(Adaptive Reasoning)を提案する。 CARは、モデルの難易度に基づいて、短い回答と長い形式の推論を切り替える。
論文参考訳（メタデータ） (2025-05-21T06:20:17Z)
ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.170732359523702]
OpenAI o3やDeepSeek-R1のような推論モデルは、推論集約的なタスクに対して強力なパフォーマンスを示している。長い推論トレースは、複雑な問題に対する解経路のより徹底的な探索を促進する。 ShorterBetterは、推論言語モデルによる最適なCoT長の発見を可能にする、シンプルで効果的な強化学習手法である。
論文参考訳（メタデータ） (2025-04-30T07:04:19Z)
Efficient Reasoning for LLMs through Speculative Chain-of-Thought [44.76494056102963]
OpenAI-o1やDeepseek-R1のような大きな推論言語モデルは、タスク解決能力が優れていたため、広く注目を集めている。効率的な推論のための既存の方法は、主にモデルパラメータの数を減らしたり、チェーンオブ思考の長さを短縮することに焦点を当てている。本稿では,平均推論速度の高速化により推理遅延を他の視点から低減するSCoT(Speculative Chain-of-Thought)を提案する。
論文参考訳（メタデータ） (2025-04-27T03:56:39Z)
Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文参考訳（メタデータ） (2025-04-18T19:32:55Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [31.189242663680695]
本稿では,問題の難易度に基づいて,モデルがチェーン・オブ・ソート(CoT)の長さを自律的に調整できる新しいフレームワークであるDASTを紹介する。多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文参考訳（メタデータ） (2025-03-06T14:23:06Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。 Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文参考訳（メタデータ） (2025-02-22T14:13:37Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文参考訳（メタデータ） (2024-10-08T05:26:28Z)
DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller Language Models [18.96271708412086]
CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。本稿では,ダイアログ誘導型Chain-of-Thought(DialCoT)について紹介する。
論文参考訳（メタデータ） (2023-10-08T08:52:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。