論文の概要: Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths
- arxiv url: http://arxiv.org/abs/2410.10858v1
- Date: Mon, 07 Oct 2024 06:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:11:16.863746
- Title: Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths
- Title(参考訳): Reasoning Paths Optimization: さまざまなパスから推論と探索を学ぶ
- Authors: Yew Ken Chia, Guizhen Chen, Weiwen Xu, Luu Anh Tuan, Soujanya Poria, Lidong Bing,
- Abstract要約: 本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
- 参考スコア(独自算出の注目度): 69.39559168050923
- License:
- Abstract: Advanced models such as OpenAI o1 exhibit impressive problem-solving capabilities through step-by-step reasoning. However, they may still falter on more complex problems, making errors that disrupt their reasoning paths. We attribute this to the expansive solution space, where each step has the risk of diverging into mistakes. To enhance language model reasoning, we introduce a specialized training framework called Reasoning Paths Optimization (RPO), which enables learning to reason and explore from diverse paths. Our approach encourages favorable branches at each reasoning step while penalizing unfavorable ones, enhancing the model's overall problem-solving performance. Reasoning Paths Optimization does not rely on large-scale human-annotated rationales or outputs from closed-source models, making it scalable and data-efficient. We focus on multi-step reasoning tasks, such as math word problems and science-based exam questions. The experiments demonstrate that our framework significantly enhances the reasoning performance of large language models, with up to 3.1% and 4.3% improvement on GSM8K and MMLU (STEM) respectively. Our data and code can be found at https://reasoning-paths.github.io.
- Abstract(参考訳): OpenAI o1のような先進的なモデルは、ステップバイステップの推論を通じて、素晴らしい問題解決能力を示す。
しかし、それでもより複雑な問題に悩まされ、推論経路を乱すエラーを発生させる可能性がある。
これは,各ステップがミスに発散するリスクがある,拡張可能なソリューションスペースに起因しています。
言語モデルの推論を強化するために,Reasoning Paths Optimization (RPO)と呼ばれる特殊なトレーニングフレームワークを導入する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
Reasoning Paths Optimizationは、クローズドソースモデルからの大規模なヒューマンアノテートやアウトプットに依存しないため、スケーラブルでデータ効率が良い。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
GSM8KとMMLU(STEM)をそれぞれ最大3.1%,4.3%改善した。
私たちのデータとコードはhttps://reasoning-paths.github.io.comで参照できます。
関連論文リスト
- A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。
動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。
我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文 参考訳(メタデータ) (2023-12-08T17:05:47Z) - DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller
Language Models [18.96271708412086]
CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。
本稿では,ダイアログ誘導型Chain-of-Thought(DialCoT)について紹介する。
論文 参考訳(メタデータ) (2023-10-08T08:52:13Z) - Solving math word problems with process- and outcome-based feedback [15.331173715345125]
自然言語タスクで訓練されたプロセスベースのアプローチと結果ベースのアプローチを総合的に比較する。
純粋な結果に基づく監視は、ラベルの監督を減らして、同様の最終回答エラー率を生成する。
正しい推論のステップでは、学習した報酬モデルからプロセスベースの監視や監督を使う必要があります。
論文 参考訳(メタデータ) (2022-11-25T18:19:44Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - Differentiable Logic Machines [38.21461039738474]
微分可能論理マシン(DLM)と呼ばれる新しいニューラル論理アーキテクチャを提案する。
DLMは帰納論理プログラミング(ILP)と強化学習(RL)の両方の問題を解くことができる。
解釈可能な解を必要としないRL問題では、DLMは他の解釈不可能なニューラル論理的RLアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-02-23T07:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。