Fugu-MT 論文翻訳(概要): Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking

論文の概要: Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking

arxiv url: http://arxiv.org/abs/2406.05673v1
Date: Sun, 9 Jun 2024 07:06:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 18:36:48.520815
Title: Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking
Title（参考訳）: 推論の流れ:ダイバージェント思考によるLCM政策の効率的な学習
Authors: Fangxu Yu, Lai Jiang, Haoqiang Kang, Shibo Hao, Lianhui Qin,
Abstract要約: 大きな言語モデル(LLM)は、しばしば高品質で多様な推論を生成するのに苦労する。本稿では,FoR(Flow of Reasoning,フロー・オブ・推論)を提案する。 FoR は初期状態から終状態へのマルコフフローとして多段階 LLM 推論を定式化する。
参考スコア（独自算出の注目度）: 12.48027669682156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Divergent thinking, the cognitive process of generating diverse solutions, is a hallmark of human creativity and problem-solving. For machines, sampling diverse solution trajectories in complex reasoning problems is crucial for robust outcomes, data augmentation, and enhanced model generalization. Large language models (LLMs) often struggle with generating high-quality, diverse reasoning. While supervised fine-tuning helps with quality, it requires extensive supervision data to capture the full diversity of solutions. Alternatively, reinforcement learning methods like PPO aim to find limited highest-reward solutions while neglecting the solution diversity, akin to convergent thinking. To address these limitations, we propose Flow of Reasoning (FoR) -- an efficient LLM training approach enabling diverse reasoning with minimal data. FoR formulates multi-step LLM reasoning as a Markovian flow from an initial state to terminal states. The formulation allows to adapt principled GFlowNet approaches to train the LLM as a policy, which is able to sample multiple reasoning paths with probabilities proportional to the unnormalized reward. Empirical results show that, with limited training data (e.g., 15 examples), FoR can discover diverse high-quality solutions that excel greatly beyond current state-of-the-art methods across three tasks, including embodied reasoning (BlocksWorld), math puzzle solving (Game24), and logical reasoning (PrOntoQA). Code is available at https://github.com/Yu-Fangxu/FoR.
Abstract（参考訳）: 多様なソリューションを生み出す認知的プロセスであるダイバージェント思考は、人間の創造性と問題解決の目印である。機械にとって、複雑な推論問題における多様な解軌跡のサンプリングは、堅牢な結果、データ拡張、モデル一般化の強化に不可欠である。大きな言語モデル(LLM)は、しばしば高品質で多様な推論を生成するのに苦労する。教師付き微調整は品質に役立つが、ソリューションの完全な多様性を捉えるためには広範な監視データが必要である。あるいは、PPOのような強化学習手法は、収束思考と同様に、解の多様性を無視しながら、限られた高次解を見つけることを目的としている。これらの制限に対処するために、我々は、最小限のデータで多様な推論を可能にする効率的なLLMトレーニングアプローチであるFlow of Reasoning (FoR)を提案する。 FoR は初期状態から終状態へのマルコフフローとして多段階 LLM 推論を定式化する。この定式化により、原則化されたGFlowNetアプローチをポリシーとしてLLMを訓練し、非正規化された報酬に比例する確率を持つ複数の推論経路をサンプリングすることができる。実験の結果、限られたトレーニングデータ(例:15例)を用いて、FoRは、具体的推論(BlocksWorld)、算術パズル解(Game24)、論理的推論(PrOntoQA)を含む3つのタスクにまたがる最先端の手法よりもはるかに優れた多様な高品質のソリューションを発見できることがわかった。コードはhttps://github.com/Yu-Fangxu/FoR.comで入手できる。

関連論文リスト

Multimodal Mathematical Reasoning with Diverse Solving Perspective [65.07953438724105]
画像探索ペア毎に複数の多様な解トラジェクトリをキャプチャする新しいデータセットであるMathV-DPを紹介する。本稿では,Qwen-VLに基づくモデルQwen-VL-DPを提案する。本手法は,様々な推論の観点からの学習を重視し,正しい解と異なる解を区別する。
論文参考訳（メタデータ） (2025-07-03T17:07:20Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models [28.791905315055974]
我々は、モデルが使用する推論戦略のタイプをより深く調査するために、長い物語形式で書かれたブレインティーザに基づくベンチマークを導入する。ブレインティーザは、創造的な洞察を使った数ステップのソリューションや、より残酷な力を使ったより長いソリューションなど、複数のアプローチで解決することができる。
論文参考訳（メタデータ） (2025-05-16T04:23:34Z)
Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Representation Learning [19.75678229122211]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。それらは、訓練のための高い計算コストや複雑な推論問題の解決における制限など、依然として重大な課題に直面している。より柔軟で適応的な推論機能を実現するために,グラフ学習を活用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-09T02:51:22Z)
Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文参考訳（メタデータ） (2025-04-14T06:32:45Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。 FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文参考訳（メタデータ） (2024-12-12T09:01:18Z)
GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks [0.10713888959520208]
生成フローネットワーク(GFlowNet)を用いて大規模言語モデル(LLM)を訓練する。 GFlowNetファインチューニングは、報酬関数に比例した分布を持つLLMをトレーニングすることで、多様な解を求める。その結果、GFlowNetの微調整は、様々な中間的推論ステップから最終的な答えを導き出すことがわかった。
論文参考訳（メタデータ） (2024-10-26T11:13:33Z)
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文参考訳（メタデータ） (2024-10-07T06:37:25Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Can LLMs Reason in the Wild with Programs? [20.47557047823847]
本研究では, LLM が未知型推論問題の解法を課題とする, 野生における推論の課題を紹介する。我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成する。実験では、既存のLLMは曖昧で混在したスコープの問題で著しく失敗する。
論文参考訳（メタデータ） (2024-06-19T18:26:19Z)
Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization [15.476478159958416]
我々は,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル(LLM)を用いる。私たちの目標は、進化の集団の収束を早めることです。
論文参考訳（メタデータ） (2024-05-09T13:44:04Z)
Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。本稿では, LLM から推論能力を抽出する手法を提案する。提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文参考訳（メタデータ） (2024-04-11T22:19:50Z)
DiLA: Enhancing LLM Tool Learning with Differential Logic Layer [11.810200077863172]
本稿では,ネットワーク層の前方・後方通過に論理的制約を組み込むディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。 2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。
論文参考訳（メタデータ） (2024-02-19T07:38:57Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文参考訳（メタデータ） (2021-03-12T04:54:31Z)
Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。 MWPを学習するためのテキスト弱教師付きパラダイムを提案する。この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文参考訳（メタデータ） (2020-12-19T03:10:21Z)
Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文参考訳（メタデータ） (2020-06-17T02:19:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。