論文の概要: GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2410.20147v1
- Date: Sat, 26 Oct 2024 11:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:50.799136
- Title: GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks
- Title(参考訳): 数理推論タスクにおける逆正解のGFlowNetファインタニング
- Authors: Ryoichi Takase, Masaya Tsunokake, Yuta Tsuchiya, Shota Inuzuka,
- Abstract要約: 生成フローネットワーク(GFlowNet)を用いて大規模言語モデル(LLM)を訓練する。
GFlowNetファインチューニングは、報酬関数に比例した分布を持つLLMをトレーニングすることで、多様な解を求める。
その結果、GFlowNetの微調整は、様々な中間的推論ステップから最終的な答えを導き出すことがわかった。
- 参考スコア(独自算出の注目度): 0.10713888959520208
- License:
- Abstract: Mathematical reasoning problems are among the most challenging, as they typically require an understanding of fundamental laws to solve. The laws are universal, but the derivation of the final answer changes depending on how a problem is approached. When training large language models (LLMs), learning the capability of generating such multiple solutions is essential to accelerate their use in mathematical education. To this end, we train LLMs using generative flow network (GFlowNet). Different from reward-maximizing reinforcement learning (RL), GFlowNet fine-tuning seeks to find diverse solutions by training the LLM whose distribution is proportional to a reward function. In numerical experiments, we evaluate GFlowNet fine-tuning and reward-maximizing RL in terms of accuracy and diversity. The results show that GFlowNet fine-tuning derives correct final answers from diverse intermediate reasoning steps, indicating the improvement of the capability of alternative solution generation.
- Abstract(参考訳): 数学的推論問題は、解決する基本法則の理解を必要とするため、最も難しい問題の一つである。
法則は普遍的であるが、最終答の導出は問題へのアプローチによって変化する。
大規模言語モデル(LLM)を訓練する場合、そのような複数のソリューションを生成する能力を学ぶことは、数学教育での使用を加速するために不可欠である。
この目的のために、生成フローネットワーク(GFlowNet)を用いてLLMを訓練する。
報酬最大化強化学習(RL)とは異なり、GFlowNet の微調整は、報酬関数に比例した分布を持つ LLM を訓練することにより、多様な解を求める。
数値実験では,GFlowNetの微調整および報酬最大化RLを精度と多様性の観点から評価した。
その結果, GFlowNet の微調整は, 様々な中間的推論段階から正解を導き, 代替解生成能力の向上が示唆された。
関連論文リスト
- Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples [12.48027669682156]
推論のフローは、最小限のデータで推論の品質と多様性を改善することを目的としています。
FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。
実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
論文 参考訳(メタデータ) (2024-06-09T07:06:58Z) - Let the Flows Tell: Solving Graph Combinatorial Optimization Problems
with GFlowNets [86.43523688236077]
組合せ最適化(CO)問題はしばしばNPハードであり、正確なアルゴリズムには及ばない。
GFlowNetsは、複合非正規化密度を逐次サンプリングする強力な機械として登場した。
本稿では,異なる問題に対してマルコフ決定プロセス(MDP)を設計し,条件付きGFlowNetを学習して解空間からサンプルを作成することを提案する。
論文 参考訳(メタデータ) (2023-05-26T15:13:09Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - AMS-Net: Adaptive Multiscale Sparse Neural Network with Interpretable
Basis Expansion for Multiphase Flow Problems [8.991619150027267]
本研究では、物理過程の学習に応用可能な適応スパース学習アルゴリズムを提案し、大きなスナップショット空間を与えられた解のスパース表現を得る。
基本関数の情報は損失関数に組み込まれており、複数の時間ステップにおけるダウンスケール縮小次数解と参照解との差を最小限に抑える。
複雑なアプリケーションにおける提案手法の有効性と解釈性を示すため, 2相多相流問題に対してより数値的な実験を行った。
論文 参考訳(メタデータ) (2022-07-24T13:12:43Z) - Flow Network based Generative Models for Non-Iterative Diverse Candidate
Generation [110.09855163856326]
本稿では,アクションのシーケンスからオブジェクトを生成するためのポリシーを学習する問題について述べる。
本稿では,生成過程をフローネットワークとして見たGFlowNetを提案する。
提案した目的の任意のグローバルな最小限が、所望の分布から標本化する方針を導出することを証明する。
論文 参考訳(メタデータ) (2021-06-08T14:21:10Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。
MWPを学習するためのテキスト弱教師付きパラダイムを提案する。
この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文 参考訳(メタデータ) (2020-12-19T03:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。