Fugu-MT 論文翻訳(概要): Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning

論文の概要: Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning

arxiv url: http://arxiv.org/abs/2410.13224v1
Date: Thu, 17 Oct 2024 05:10:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.755805
Title: Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning
Title（参考訳）: Proof Flow:形式推論のための生成フローネットワーク言語モデルチューニングに関する予備的検討
Authors: Matthew Ho, Vincent Zhu, Xiaoyin Chen, Moksh Jain, Nikolay Malkin, Edwin Zhang,
Abstract要約: 本稿では,形式的推論の領域,特にニューラル定理証明設定における概念実証について述べる。古典的な報酬最大化強化学習とは異なり、GFlowNetsは合成対象をサンプリングするための有望なアプローチとして登場した。我々の初期の結果は、GFlowNetが検索環境におけるモデル性能を向上させる可能性を示している。
参考スコア（独自算出の注目度）: 11.268313729426627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning is a fundamental substrate for solving novel and complex problems. Deliberate efforts in learning and developing frameworks around System 2 reasoning have made great strides, yet problems of sufficient complexity remain largely out of reach for open models. To address this gap, we examine the potential of Generative Flow Networks as a fine-tuning method for LLMs to unlock advanced reasoning capabilities. In this paper, we present a proof of concept in the domain of formal reasoning, specifically in the Neural Theorem Proving (NTP) setting, where proofs specified in a formal language such as Lean can be deterministically and objectively verified. Unlike classical reward-maximization reinforcement learning, which frequently over-exploits high-reward actions and fails to effectively explore the state space, GFlowNets have emerged as a promising approach for sampling compositional objects, improving generalization, and enabling models to maintain diverse hypotheses. Our early results demonstrate GFlowNet fine-tuning's potential for enhancing model performance in a search setting, which is especially relevant given the paradigm shift towards inference time compute scaling and "thinking slowly."
Abstract（参考訳）: 推論は、新規で複雑な問題を解決するための基本的な基盤である。システム2の推論に関するフレームワークの学習と開発に関する議論は、大きな進歩を遂げましたが、十分な複雑さの問題は、オープンモデルには至っていません。このギャップに対処するために,LLMの高度な推論能力を解き放つための微調整手法としてジェネレーティブ・フロー・ネットワークの可能性を検討する。本稿では,形式的推論の領域において,特にニューラル定理証明(NTP)の設定において,リーンのような形式的言語で規定された証明を決定的かつ客観的に検証できる概念実証について述べる。古典的な報酬-最大化強化学習とは違い、高報酬行動が過大評価され、状態空間を効果的に探索できない場合が多いが、GFlowNetsは、合成対象をサンプリングし、一般化を改善し、モデルが多様な仮説を維持するための有望なアプローチとして現れてきた。我々の初期の結果は、GFlowNetが検索環境におけるモデル性能を向上させる可能性を示しており、特に、推論時間計算のスケーリングへのパラダイムシフトや「ゆっくり考える」ことを考えると、関係している。

関連論文リスト

Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs [17.335266921332092]
大規模言語モデル(LLMs)は、明示的なChain-of-Thoughtプロンプトを通じて、顕著な推論能力を示している。モデルがすべてのステップに対して明示的なテキストを生成することなく、潜在空間で"考え"する、効率的で暗黙的な推論のためのフレームワークを開発する。
論文参考訳（メタデータ） (2025-07-22T11:22:58Z)
CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文参考訳（メタデータ） (2025-07-10T21:32:18Z)
Secrets of GFlowNets' Learning Behavior: A Theoretical Study [11.255750603430988]
我々はGFlowNetsの学習行動に関する理論的研究を行い、収束性、サンプルの複雑さ、暗黙の正規化、堅牢性という4つの基本的な側面に焦点を当てた。本研究は,GFlowNetの性能に影響を及ぼす要因のより深い理解と,その効果的な設計と展開に関する原則的ガイドラインの洞察に寄与する。
論文参考訳（メタデータ） (2025-05-04T09:04:25Z)
Cognitive Prompts Using Guilford's Structure of Intellect Model [0.0]
大規模言語モデル(LLM)は強力な言語生成能力を示すが、しばしば構造化推論に苦しむ。本稿では,モデル応答の明瞭さ,コヒーレンス,適応性を向上させるために,SOIにインスパイアされた推論を強制する新しい認知促進手法を提案する。
論文参考訳（メタデータ） (2025-03-27T23:06:30Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。 SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文参考訳（メタデータ） (2024-12-19T08:28:18Z)
FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文参考訳（メタデータ） (2024-07-21T13:33:08Z)
Verbalized Probabilistic Graphical Modeling with Large Language Models [8.961720262676195]
この研究は、大規模言語モデルによる学習自由ベイズ推論を促進する新しいベイズ急進的アプローチを導入している。本研究は,AI言語理解システムの改善の可能性を示すとともに,信頼性評価とテキスト生成品質を効果的に向上させることを示唆する。
論文参考訳（メタデータ） (2024-06-08T16:35:31Z)
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文参考訳（メタデータ） (2024-02-01T15:18:33Z)
Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets [4.020829863982153]
十分に小さなネットワークを近似できる構造化ニューラルワークの存在を実証する。この結果は、Strong Lottery Ticket仮説の周りの最初の部分指数境界を与える。
論文参考訳（メタデータ） (2023-11-16T12:38:45Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。本稿では, 対物近似(CF)の2つの手法を提案する。
論文参考訳（メタデータ） (2023-10-01T07:31:04Z)
Learn to Accumulate Evidence from All Training Samples: Theory and Practice [7.257751371276488]
Evidential Deep Learningは、決定論的ニューラルネットワークの不確実性を認識するための、原則的かつ計算的に効率的な方法を提供する。既存の明らかなアクティベーション関数はゼロエビデンス領域を生成するため、モデルがそのような領域に落ちてくるトレーニングサンプルから学ぶことができない。我々の理論的基盤に基づく顕在的活性化関数のより深い分析は、新しい正則化器の設計を刺激する。
論文参考訳（メタデータ） (2023-06-19T18:27:12Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。また、局所的な一貫性の結果に基づいた理論的保証も提供する。この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文参考訳（メタデータ） (2022-11-17T15:48:06Z)
CARE: Certifiably Robust Learning with Reasoning via Variational Inference [26.210129662748862]
推論パイプライン(CARE)を用いた頑健な学習を提案する。 CAREは、最先端のベースラインに比べて、かなり高い信頼性のロバスト性を達成する。さらに,CAREの実証的ロバスト性および知識統合の有効性を示すために,異なるアブレーション研究を行った。
論文参考訳（メタデータ） (2022-09-12T07:15:52Z)
Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-08T04:09:13Z)
Prediction-Centric Learning of Independent Cascade Dynamics from Partial Observations [13.680949377743392]
本稿では,このモデルから生成された予測が正確であるような拡散モデルの学習の問題に対処する。本稿では,スケーラブルな動的メッセージパッシング手法に基づく計算効率のよいアルゴリズムを提案する。学習モデルからの抽出可能な推論は,元のモデルと比較して限界確率の予測精度がよいことを示す。
論文参考訳（メタデータ） (2020-07-13T17:58:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。