Fugu-MT 論文翻訳(概要): Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples

論文の概要: Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples

arxiv url: http://arxiv.org/abs/2406.05673v3
Date: Fri, 04 Oct 2024 15:14:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 17:14:27.722767
Title: Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples
Title（参考訳）: 推論の流れ:最小例によるダイバージェント問題解決のためのLLMの学習
Authors: Fangxu Yu, Lai Jiang, Haoqiang Kang, Shibo Hao, Lianhui Qin,
Abstract要約: 推論のフローは、最小限のデータで推論の品質と多様性を改善することを目的としています。 FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
参考スコア（独自算出の注目度）: 12.48027669682156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to generate diverse solutions to a given problem is a hallmark of human creativity. This divergent reasoning is also crucial for machines, enhancing their robustness and enabling them to assist humans in many applications such as scientific discovery. However, existing approaches to multi-step reasoning with large language models (LLMs) have mostly focused only on reasoning accuracy, without further discovering more diverse valid solutions. For example, supervised fine-tuning can improve LLM reasoning quality, but requires extensive supervised data to capture the full range of possible solutions. Reinforcement learning aims to find limited highest-reward solutions while neglecting the solution diversity. To fill this gap, we propose Flow of Reasoning (FoR), an efficient diversity-seeking LLM finetuning method aimed at improving reasoning quality and diversity with minimal data. FoR formulates multi-step LLM reasoning as a Markovian flow on a DAG-structured reasoning graph. This formulation allows us to incorporate and adapt principled GFlowNet approaches, for finetuning LLMs to sample diverse reasoning paths with probabilities proportional to the (unnormalized) reward of target problems. Extensive experiments show that, with limited training examples (e.g., 15 examples), FoR enables the discovery of diverse, creative, high-quality solutions, greatly outperforming a wide range of existing inference and training methods across five challenging puzzle-solving tasks, including BlocksWorld (embodied reasoning), Game24 (math puzzle solving), Rubik's Cube (spatial reasoning), 1D-ARC (abstraction reasoning), and PrOntoQA (logical reasoning). Code is available at https://github.com/Yu-Fangxu/FoR.
Abstract（参考訳）: 与えられた問題に対する多様なソリューションを生成する能力は、人間の創造性の目印である。この分岐推論は機械にも不可欠であり、その堅牢性を高め、科学的な発見など多くの応用において人間を助けることができる。しかし、大規模言語モデル(LLM)を用いたマルチステップ推論への既存のアプローチは、より多様な有効な解を見つけることなく、推論の精度にのみ焦点を絞っている。例えば、教師付き微調整はLSM推論の品質を向上させることができるが、可能なソリューションの全範囲を捉えるには広範囲の教師付きデータが必要である。強化学習は、ソリューションの多様性を無視しながら、限られた最下位のソリューションを見つけることを目的としている。このギャップを埋めるために、最小限のデータで推論品質と多様性を改善することを目的とした、効率的な多様性を求めるLCM微調整法であるFlow of Reasoning (FoR)を提案する。 FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。この定式化により、原理化されたGFlowNetアプローチを導入し、LLMを微調整することで、対象問題の(正規化されていない)報酬に比例した確率を持つ様々な推論経路をサンプリングすることができる。大規模な実験では、限定的なトレーニング例(例:15例)によって、FoRは多様な創造的で高品質なソリューションの発見を可能にし、BlocksWorld(身体的推論)、Game24(マスパズル解決)、Rubik's Cube(空間推論)、1D-ARC(抽出推論)、PrOntoQA(論理推論)など、難解な5つのタスクにおいて、既存の推論とトレーニングの方法を大幅に上回っている。コードはhttps://github.com/Yu-Fangxu/FoR.comで入手できる。

関連論文リスト

Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文参考訳（メタデータ） (2025-04-14T06:32:45Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。 FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文参考訳（メタデータ） (2024-12-12T09:01:18Z)
GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks [0.10713888959520208]
生成フローネットワーク(GFlowNet)を用いて大規模言語モデル(LLM)を訓練する。 GFlowNetファインチューニングは、報酬関数に比例した分布を持つLLMをトレーニングすることで、多様な解を求める。その結果、GFlowNetの微調整は、様々な中間的推論ステップから最終的な答えを導き出すことがわかった。
論文参考訳（メタデータ） (2024-10-26T11:13:33Z)
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文参考訳（メタデータ） (2024-10-07T06:37:25Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Can LLMs Reason in the Wild with Programs? [20.47557047823847]
本研究では, LLM が未知型推論問題の解法を課題とする, 野生における推論の課題を紹介する。我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成する。実験では、既存のLLMは曖昧で混在したスコープの問題で著しく失敗する。
論文参考訳（メタデータ） (2024-06-19T18:26:19Z)
Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization [15.476478159958416]
我々は,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル(LLM)を用いる。私たちの目標は、進化の集団の収束を早めることです。
論文参考訳（メタデータ） (2024-05-09T13:44:04Z)
Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。本稿では, LLM から推論能力を抽出する手法を提案する。提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文参考訳（メタデータ） (2024-04-11T22:19:50Z)
DiLA: Enhancing LLM Tool Learning with Differential Logic Layer [11.810200077863172]
本稿では,ネットワーク層の前方・後方通過に論理的制約を組み込むディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。 2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。
論文参考訳（メタデータ） (2024-02-19T07:38:57Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文参考訳（メタデータ） (2021-03-12T04:54:31Z)
Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文参考訳（メタデータ） (2020-06-17T02:19:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。