Fugu-MT 論文翻訳(概要): AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning

論文の概要: AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.11896v1
Date: Sat, 17 May 2025 08:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.923038
Title: AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning
Title（参考訳）: AdaCoT: 強化学習によるパレット最適適応型チェーン・オブ・ソート・トリガリング
Authors: Chenwei Lou, Zewei Sun, Xinnian Liang, Meng Qu, Wei Shen, Wenqi Wang, Yuntao Li, Qingping Yang, Shuangzhi Wu,
Abstract要約: Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。 AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
参考スコア（独自算出の注目度）: 30.265984245328124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities but often face challenges with tasks requiring sophisticated reasoning. While Chain-of-Thought (CoT) prompting significantly enhances reasoning, it indiscriminately generates lengthy reasoning steps for all queries, leading to substantial computational costs and inefficiency, especially for simpler inputs. To address this critical issue, we introduce AdaCoT (Adaptive Chain-of-Thought), a novel framework enabling LLMs to adaptively decide when to invoke CoT. AdaCoT framed adaptive reasoning as a Pareto optimization problem that seeks to balance model performance with the costs associated with CoT invocation (both frequency and computational overhead). We propose a reinforcement learning (RL) based method, specifically utilizing Proximal Policy Optimization (PPO), to dynamically control the CoT triggering decision boundary by adjusting penalty coefficients, thereby allowing the model to determine CoT necessity based on implicit query complexity. A key technical contribution is Selective Loss Masking (SLM), designed to counteract decision boundary collapse during multi-stage RL training, ensuring robust and stable adaptive triggering. Experimental results demonstrate that AdaCoT successfully navigates the Pareto frontier, achieving substantial reductions in CoT usage for queries not requiring elaborate reasoning. For instance, on our production traffic testset, AdaCoT reduced CoT triggering rates to as low as 3.18\% and decreased average response tokens by 69.06%, while maintaining high performance on complex tasks.
Abstract（参考訳）: 大きな言語モデル(LLM)は目覚ましい能力を示しているが、しばしば高度な推論を必要とするタスクで課題に直面している。 CoT(Chain-of-Thought)は推論を著しく向上させるが、全てのクエリに対する長い推論ステップを無差別に生成し、特に単純な入力に対して、計算コストと非効率をもたらす。この重要な問題に対処するために、LLMがCoTをいつ呼び出すかを適応的に決定できる新しいフレームワークであるAdaCoT(Adaptive Chain-of-Thought)を紹介する。 AdaCoTは適応推論をPareto最適化問題として捉え、モデル性能とCoTの実行に伴うコスト(周波数と計算オーバーヘッドの両方)のバランスをとろうとしている。本稿では,PPO(Proximal Policy Optimization)を利用した強化学習(RL)に基づく手法を提案する。この手法は,ペナルティ係数の調整によってCoTを誘導する決定境界を動的に制御し,暗黙的なクエリの複雑さに基づいてCoTの必要性を判断する。重要な技術的貢献はSLM(Selective Loss Masking)であり、これは多段階のRLトレーニング中に決定境界の崩壊を防止し、堅牢で安定した適応トリガーを確保するために設計された。実験の結果、AdaCoTはParetoフロンティアをうまくナビゲートし、精巧な推論を必要としないクエリに対するCoT使用量の大幅な削減を実現している。例えば、当社の運用トラフィックテストセットにおいて、AdaCoTは、CoTトリガのトリガレートを3.18\%まで削減し、平均レスポンストークンを69.06%削減し、複雑なタスクで高いパフォーマンスを維持しました。

関連論文リスト

Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文参考訳（メタデータ） (2025-08-05T11:48:18Z)
SynAdapt: Learning Adaptive Reasoning in Large Language Models via Synthetic Continuous Chain-of-Thought [8.287063165175667]
CoT(Chain-of-Thought)推論は、離散CoTトークン(DCoT)の生成によってかなりの時間コストを発生させる既存のContinuous CoTメソッドは、間接的な微調整、限定されたアライメント、一貫性のないターゲットによって妨げられます。我々は、革新的な効率的な推論フレームワークである textitSynAdapt を提案する。
論文参考訳（メタデータ） (2025-08-01T12:17:35Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Long or short CoT? Investigating Instance-level Switch of Large Reasoning Models [11.257865157523446]
CoT(Chain-of-Thought)プロンプトは複雑なタスクに対して強いパフォーマンスを示している。長いCoTはパフォーマンス改善につながる可能性があるが、その利点はトークン消費が著しく高いことと比べれば限界があることが多い。推論精度と計算効率のバランスをとるために,長いCoT戦略と短いCoT戦略を適応的に選択する自動フレームワークであるSwitchCoTを提案する。
論文参考訳（メタデータ） (2025-06-04T17:28:38Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
Demystifying Long Chain-of-Thought Reasoning in LLMs [46.352406501403465]
ロングチェーン・オブ・シント(CoT)は、バックトラックやエラー修正のような戦略を可能にする。強化学習(Reinforcement Learning, RL)は、これらの能力を開発する上で重要な方法である。モデルが長いCoT軌道を生成できる重要な要素を同定する。
論文参考訳（メタデータ） (2025-02-05T17:13:32Z)
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。 FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文参考訳（メタデータ） (2024-12-12T09:01:18Z)
Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文参考訳（メタデータ） (2024-10-08T05:26:28Z)
Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-13T06:29:20Z)
Break the Chain: Large Language Models Can be Shortcut Reasoners [18.047917626825548]
CoT(Chain-of-Thought)推論は複雑なモジュールを利用するが、高いトークン消費、適用可能性の制限、思考上の課題によって妨げられる。本稿では、複雑な論理的および常識的推論タスクを含む算術を超えて、CoTプロンプトの批判的評価を行う。そこで我々は,「チェーンを破る」戦略を通じて,人型やショートカットを言語モデル(LM)に統合することを提案する。
論文参考訳（メタデータ） (2024-06-04T14:02:53Z)
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (2024-03-21T11:34:26Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。