論文の概要: Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning
- arxiv url: http://arxiv.org/abs/2410.13224v1
- Date: Thu, 17 Oct 2024 05:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:15.151749
- Title: Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning
- Title(参考訳): Proof Flow:形式推論のための生成フローネットワーク言語モデルチューニングに関する予備的検討
- Authors: Matthew Ho, Vincent Zhu, Xiaoyin Chen, Moksh Jain, Nikolay Malkin, Edwin Zhang,
- Abstract要約: 本稿では,形式的推論の領域,特にニューラル定理証明設定における概念実証について述べる。
古典的な報酬最大化強化学習とは異なり、GFlowNetsは合成対象をサンプリングするための有望なアプローチとして登場した。
我々の初期の結果は、GFlowNetが検索環境におけるモデル性能を向上させる可能性を示している。
- 参考スコア(独自算出の注目度): 11.268313729426627
- License:
- Abstract: Reasoning is a fundamental substrate for solving novel and complex problems. Deliberate efforts in learning and developing frameworks around System 2 reasoning have made great strides, yet problems of sufficient complexity remain largely out of reach for open models. To address this gap, we examine the potential of Generative Flow Networks as a fine-tuning method for LLMs to unlock advanced reasoning capabilities. In this paper, we present a proof of concept in the domain of formal reasoning, specifically in the Neural Theorem Proving (NTP) setting, where proofs specified in a formal language such as Lean can be deterministically and objectively verified. Unlike classical reward-maximization reinforcement learning, which frequently over-exploits high-reward actions and fails to effectively explore the state space, GFlowNets have emerged as a promising approach for sampling compositional objects, improving generalization, and enabling models to maintain diverse hypotheses. Our early results demonstrate GFlowNet fine-tuning's potential for enhancing model performance in a search setting, which is especially relevant given the paradigm shift towards inference time compute scaling and "thinking slowly."
- Abstract(参考訳): 推論は、新規で複雑な問題を解決するための基本的な基盤である。
システム2の推論に関するフレームワークの学習と開発に関する議論は、大きな進歩を遂げましたが、十分な複雑さの問題は、オープンモデルには至っていません。
このギャップに対処するために,LLMの高度な推論能力を解き放つための微調整手法としてジェネレーティブ・フロー・ネットワークの可能性を検討する。
本稿では,形式的推論の領域において,特にニューラル定理証明(NTP)の設定において,リーンのような形式的言語で規定された証明を決定的かつ客観的に検証できる概念実証について述べる。
古典的な報酬-最大化強化学習とは違い、高報酬行動が過大評価され、状態空間を効果的に探索できない場合が多いが、GFlowNetsは、合成対象をサンプリングし、一般化を改善し、モデルが多様な仮説を維持するための有望なアプローチとして現れてきた。
我々の初期の結果は、GFlowNetが検索環境におけるモデル性能を向上させる可能性を示しており、特に、推論時間計算のスケーリングへのパラダイムシフトや「ゆっくり考える」ことを考えると、関係している。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。
SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。
本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-19T08:28:18Z) - FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。
提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。
また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - Verbalized Probabilistic Graphical Modeling with Large Language Models [8.961720262676195]
この研究は、大規模言語モデルによる学習自由ベイズ推論を促進する新しいベイズ急進的アプローチを導入している。
本研究は,AI言語理解システムの改善の可能性を示すとともに,信頼性評価とテキスト生成品質を効果的に向上させることを示唆する。
論文 参考訳(メタデータ) (2024-06-08T16:35:31Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Learn to Accumulate Evidence from All Training Samples: Theory and
Practice [7.257751371276488]
Evidential Deep Learningは、決定論的ニューラルネットワークの不確実性を認識するための、原則的かつ計算的に効率的な方法を提供する。
既存の明らかなアクティベーション関数はゼロエビデンス領域を生成するため、モデルがそのような領域に落ちてくるトレーニングサンプルから学ぶことができない。
我々の理論的基盤に基づく顕在的活性化関数のより深い分析は、新しい正則化器の設計を刺激する。
論文 参考訳(メタデータ) (2023-06-19T18:27:12Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Prediction-Centric Learning of Independent Cascade Dynamics from Partial
Observations [13.680949377743392]
本稿では,このモデルから生成された予測が正確であるような拡散モデルの学習の問題に対処する。
本稿では,スケーラブルな動的メッセージパッシング手法に基づく計算効率のよいアルゴリズムを提案する。
学習モデルからの抽出可能な推論は,元のモデルと比較して限界確率の予測精度がよいことを示す。
論文 参考訳(メタデータ) (2020-07-13T17:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。