論文の概要: Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking
- arxiv url: http://arxiv.org/abs/2406.05673v1
- Date: Sun, 9 Jun 2024 07:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:36:48.520815
- Title: Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking
- Title(参考訳): 推論の流れ:ダイバージェント思考によるLCM政策の効率的な学習
- Authors: Fangxu Yu, Lai Jiang, Haoqiang Kang, Shibo Hao, Lianhui Qin,
- Abstract要約: 大きな言語モデル(LLM)は、しばしば高品質で多様な推論を生成するのに苦労する。
本稿では,FoR(Flow of Reasoning,フロー・オブ・推論)を提案する。
FoR は初期状態から終状態へのマルコフフローとして多段階 LLM 推論を定式化する。
- 参考スコア(独自算出の注目度): 12.48027669682156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Divergent thinking, the cognitive process of generating diverse solutions, is a hallmark of human creativity and problem-solving. For machines, sampling diverse solution trajectories in complex reasoning problems is crucial for robust outcomes, data augmentation, and enhanced model generalization. Large language models (LLMs) often struggle with generating high-quality, diverse reasoning. While supervised fine-tuning helps with quality, it requires extensive supervision data to capture the full diversity of solutions. Alternatively, reinforcement learning methods like PPO aim to find limited highest-reward solutions while neglecting the solution diversity, akin to convergent thinking. To address these limitations, we propose Flow of Reasoning (FoR) -- an efficient LLM training approach enabling diverse reasoning with minimal data. FoR formulates multi-step LLM reasoning as a Markovian flow from an initial state to terminal states. The formulation allows to adapt principled GFlowNet approaches to train the LLM as a policy, which is able to sample multiple reasoning paths with probabilities proportional to the unnormalized reward. Empirical results show that, with limited training data (e.g., 15 examples), FoR can discover diverse high-quality solutions that excel greatly beyond current state-of-the-art methods across three tasks, including embodied reasoning (BlocksWorld), math puzzle solving (Game24), and logical reasoning (PrOntoQA). Code is available at https://github.com/Yu-Fangxu/FoR.
- Abstract(参考訳): 多様なソリューションを生み出す認知的プロセスであるダイバージェント思考は、人間の創造性と問題解決の目印である。
機械にとって、複雑な推論問題における多様な解軌跡のサンプリングは、堅牢な結果、データ拡張、モデル一般化の強化に不可欠である。
大きな言語モデル(LLM)は、しばしば高品質で多様な推論を生成するのに苦労する。
教師付き微調整は品質に役立つが、ソリューションの完全な多様性を捉えるためには広範な監視データが必要である。
あるいは、PPOのような強化学習手法は、収束思考と同様に、解の多様性を無視しながら、限られた高次解を見つけることを目的としている。
これらの制限に対処するために、我々は、最小限のデータで多様な推論を可能にする効率的なLLMトレーニングアプローチであるFlow of Reasoning (FoR)を提案する。
FoR は初期状態から終状態へのマルコフフローとして多段階 LLM 推論を定式化する。
この定式化により、原則化されたGFlowNetアプローチをポリシーとしてLLMを訓練し、非正規化された報酬に比例する確率を持つ複数の推論経路をサンプリングすることができる。
実験の結果、限られたトレーニングデータ(例:15例)を用いて、FoRは、具体的推論(BlocksWorld)、算術パズル解(Game24)、論理的推論(PrOntoQA)を含む3つのタスクにまたがる最先端の手法よりもはるかに優れた多様な高品質のソリューションを発見できることがわかった。
コードはhttps://github.com/Yu-Fangxu/FoR.comで入手できる。
関連論文リスト
- GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks [0.10713888959520208]
生成フローネットワーク(GFlowNet)を用いて大規模言語モデル(LLM)を訓練する。
GFlowNetファインチューニングは、報酬関数に比例した分布を持つLLMをトレーニングすることで、多様な解を求める。
その結果、GFlowNetの微調整は、様々な中間的推論ステップから最終的な答えを導き出すことがわかった。
論文 参考訳(メタデータ) (2024-10-26T11:13:33Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Can LLMs Reason in the Wild with Programs? [20.47557047823847]
本研究では, LLM が未知型推論問題の解法を課題とする, 野生における推論の課題を紹介する。
我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成する。
実験では、既存のLLMは曖昧で混在したスコープの問題で著しく失敗する。
論文 参考訳(メタデータ) (2024-06-19T18:26:19Z) - Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization [15.476478159958416]
我々は,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル(LLM)を用いる。
私たちの目標は、進化の集団の収束を早めることです。
論文 参考訳(メタデータ) (2024-05-09T13:44:04Z) - Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。
本稿では, LLM から推論能力を抽出する手法を提案する。
提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文 参考訳(メタデータ) (2024-04-11T22:19:50Z) - DiLA: Enhancing LLM Tool Learning with Differential Logic Layer [11.810200077863172]
本稿では,ネットワーク層の前方・後方通過に論理的制約を組み込むディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。
2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。
論文 参考訳(メタデータ) (2024-02-19T07:38:57Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。
提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-06-17T02:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。