Fugu-MT 論文翻訳(概要): Optimizing Chain-of-Thought Reasoning: Tackling Arranging Bottleneck via Plan Augmentation

論文の概要: Optimizing Chain-of-Thought Reasoning: Tackling Arranging Bottleneck via Plan Augmentation

arxiv url: http://arxiv.org/abs/2410.16812v1
Date: Tue, 22 Oct 2024 08:38:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.943912
Title: Optimizing Chain-of-Thought Reasoning: Tackling Arranging Bottleneck via Plan Augmentation
Title（参考訳）: 思考の連鎖を最適化する:プラン強化によるボトルネックの配置
Authors: Yuli Qiu, Jiashu Yao, Heyan Huang, Yuhang Guo,
Abstract要約: そこで本研究では,抽象的な計画を通じてモデルを整理し,構成ステップを生成するための計画ベーストレーニングと推論手法を提案する。その結果,CoTデータを直接微調整した場合と比較して,ボトルネックの緩和に優れた性能が得られた。
参考スコア（独自算出の注目度）: 34.042565099565934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-step reasoning ability of large language models is crucial in tasks such as math and tool utilization. Current researches predominantly focus on enhancing model performance in these multi-step reasoning tasks through fine-tuning with Chain-of-Thought (CoT) steps, yet these methods tend to be heuristic, without exploring nor resolving the bottleneck. In this study, we subdivide CoT reasoning into two parts: arranging and executing, and identify that the bottleneck of models mainly lies in arranging rather than executing. Based on this finding, we propose a plan-based training and reasoning method that guides models to generate arranging steps through abstract plans. We experiment on both math (GSM8k) and tool utilization (ToolBench) benchmarks. Results show that compared to fine-tuning directly with CoT data, our approach achieves a better performance on alleviating arranging bottleneck, particularly excelling in long-distance reasoning generalization.
Abstract（参考訳）: 大規模言語モデルの多段階推論能力は,数学やツール利用といったタスクにおいて重要である。現在の研究は主に、Chain-of-Thought (CoT) ステップで微調整することで、これらの多段階推論タスクにおけるモデルパフォーマンスの向上に重点を置いているが、これらの手法はボトルネックを探索したり解決したりすることなく、ヒューリスティックである傾向にある。本研究では,CoT推論をアレンジと実行の2つの部分に分割し,モデルのボトルネックは,実行ではなくアレンジに起因していることを確認した。そこで本研究では,モデルから抽象的な計画作成手順を導出する,計画に基づく学習・推論手法を提案する。我々は数学(GSM8k)とツール利用(ToolBench)のベンチマークを実験する。その結果,CoTデータを直接微調整した場合と比較して,特に長距離推論の一般化に優れるボトルネックの緩和に優れた性能が得られた。

関連論文リスト

Agentic-R1: Distilled Dual-Strategy Reasoning [44.848089301154026]
現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。本手法は,計算集約型ベンチマークと標準ベンチマークの両方を含むタスクの精度を向上する。
論文参考訳（メタデータ） (2025-07-08T06:35:16Z)
On the Bias of Next-Token Predictors Toward Systematically Inefficient Reasoning: A Shortest-Path Case Study [4.319482898846564]
大規模言語モデルにおける推論を改善するための2つの重要な要因について検討する。我々は、カスタムトークン化器を用いて、質問-トレース-回答三重項に対してデコーダのみの変換器を訓練する。同じトレーニングの予算で、非効率なトレースで訓練されたモデルは、目に見えないグラフよりも一般化される。
論文参考訳（メタデータ） (2025-07-07T18:00:06Z)
A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search [15.387256204743407]
大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。推論コストは、今やリソース全体の負担の重要かつ増大する要素である。本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
論文参考訳（メタデータ） (2025-06-10T14:47:48Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Marco-o1 v2: Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。このボトルネックを軽減するために,モンテカルロ木探索を用いて木に基づくCoTデータを構築することを提案する。次に、構築したデータに基づいてSFTとRLを強化するために、Thoughts Length Balance, Fine-fine DPO, Joint Post-Training ObjectiveなどのCoT対応アプローチを利用する。
論文参考訳（メタデータ） (2025-03-03T12:17:36Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文参考訳（メタデータ） (2025-02-18T20:04:51Z)
Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation [34.55224347308013]
シーケンシャル・ツー・シークエンス・タスクのための従来の教師付き微調整(SFT)戦略は、しばしばターゲット出力を直接生成するようにモデルを訓練する。モデルが中間の"upwarm"シーケンスを生成可能なタスク非依存フレームワークを提案する。提案手法は従来のSFT手法よりも優れており,シーケンシャル・ツー・シーケンス・タスクに対してスケーラブルで柔軟なソリューションを提供する。
論文参考訳（メタデータ） (2025-02-17T20:23:42Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文参考訳（メタデータ） (2024-11-20T09:46:30Z)
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文参考訳（メタデータ） (2024-10-17T15:09:03Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文参考訳（メタデータ） (2024-05-30T06:32:11Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Pattern-Aware Chain-of-Thought Prompting in Large Language Models [26.641713417293538]
CoT(Chain-of- Thought)は言語モデルに複雑な多段階推論を誘導する。このようなタスクにおいて、基礎となる推論パターンがより重要な役割を果たすことを示す。本稿では,デモパターンの多様性を考慮したプロンプト手法であるPattern-Aware CoTを提案する。
論文参考訳（メタデータ） (2024-04-23T07:50:00Z)
Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文参考訳（メタデータ） (2023-10-09T13:29:37Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。