Fugu-MT 論文翻訳(概要): Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets

論文の概要: Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets

arxiv url: http://arxiv.org/abs/2406.01150v2
Date: Sun, 23 Feb 2025 12:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.330427
Title: Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets
Title（参考訳）: 振り返って:ゴールコンディションGFlowNetの振り返り後方合成
Authors: Haoran He, Can Chang, Huazhe Xu, Ling Pan,
Abstract要約: Generative Flow Networks (GFlowNets) は、多種多様なハイリワード候補を生成する顕著な能力を示した。しかし、そのようなモデルの訓練は、極めて少ない報酬のために困難である。この問題を解決するために,textbfRetrospective textbfBackward textbfSynthesis (textbfRBS) という新しい手法を提案する。
参考スコア（独自算出の注目度）: 27.33222647437964
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative Flow Networks (GFlowNets), a new family of probabilistic samplers, have demonstrated remarkable capabilities to generate diverse sets of high-reward candidates, in contrast to standard return maximization approaches (e.g., reinforcement learning) which often converge to a single optimal solution. Recent works have focused on developing goal-conditioned GFlowNets, which aim to train a single GFlowNet capable of achieving different outcomes as the task specifies. However, training such models is challenging due to extremely sparse rewards, particularly in high-dimensional problems. Moreover, previous methods suffer from the limited coverage of explored trajectories during training, which presents more pronounced challenges when only offline data is available. In this work, we propose a novel method called \textbf{R}etrospective \textbf{B}ackward \textbf{S}ynthesis (\textbf{RBS}) to address these critical problems. Specifically, RBS synthesizes new backward trajectories in goal-conditioned GFlowNets to enrich training trajectories with enhanced quality and diversity, thereby introducing copious learnable signals for effectively tackling the sparse reward problem. Extensive empirical results show that our method improves sample efficiency by a large margin and outperforms strong baselines on various standard evaluation benchmarks.
Abstract（参考訳）: 新しい確率的サンプルネットワークであるGenerative Flow Networks (GFlowNets) は、単一の最適解に収束する標準的な戻り値最大化アプローチ(例えば強化学習)とは対照的に、多種多様なハイリワード候補を生成する素晴らしい能力を示した。最近の研究はゴール条件付きGFlowNetの開発に重点を置いており、これはタスクが指定する異なる結果を達成することができる単一のGFlowNetをトレーニングすることを目的としている。しかし、特に高次元問題において、非常に少ない報酬のため、そのようなモデルの訓練は困難である。さらに、従来の手法では、トレーニング中に探索された軌道のカバレッジが限られており、オフラインデータしか利用できない場合には、より顕著な課題が提示される。そこで本研究では,これらの重要な問題に対処するための新しい方法として, \textbf{R}etrospective \textbf{B}ackward \textbf{S}ynthesis (\textbf{RBS})を提案する。具体的には、RBSはゴール条件付きGFlowNetsの新しい後方軌跡を合成し、品質と多様性を向上したトレーニング軌跡を充実させ、スパース報酬問題に効果的に取り組むための協調学習可能な信号を導入する。実験結果から,本手法はサンプル効率を大幅に向上し,各種標準評価ベンチマークにおいて高いベースラインを達成できることが示唆された。

関連論文リスト

Proxy-Free GFlowNet [39.964801793885485]
Generative Flow Networks (GFlowNets) は、構成オブジェクト上の分布をモデル化することによって、多種多様な高逆構造をサンプリングするように設計されている。既存のほとんどのメソッドはモデルベースのアプローチを採用し、データセットからプロキシモデルを学び、報酬関数を近似する。 textbfTrajectory-Distilled GFlowNet (TD-GFN) を提案する。
論文参考訳（メタデータ） (2025-05-26T15:12:22Z)
Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-20T19:12:14Z)
Beyond Squared Error: Exploring Loss Design for Enhanced Training of Generative Flow Networks [36.084318189865066]
異なる回帰損失は特定の発散対策に対応し、対応する発散対策の所望の特性に応じて退散損失を設計・解析できることを示す。理論的枠組みに基づいて,シフトドコッシュ,リニアス(1/2),リニアス(1)という3つの新たな回帰損失を提案する。提案した損失は既存のトレーニングアルゴリズムと互換性があり、収束速度、サンプルの多様性、堅牢性に関するアルゴリズムの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-03T15:37:22Z)
On Generalization for Generative Flow Networks [54.20924253330039]
生成フローネットワーク(GFlowNets)は、非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。
論文参考訳（メタデータ） (2024-07-03T13:42:21Z)
Bifurcated Generative Flow Networks [32.40020432840822]
Bifurcated GFlowNets (BN) は、状態フローとエッジベースのフローアロケーションの別々の表現にフローを分解する新しいアプローチである。 BNは,強いベースラインに比べて学習効率と効果を著しく向上することを示した。
論文参考訳（メタデータ） (2024-06-04T02:12:27Z)
LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。 LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-05-22T10:21:50Z)
Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文参考訳（メタデータ） (2023-10-05T09:53:22Z)
Local Search GFlowNets [85.0053493167887]
Generative Flow Networks (GFlowNets) は、報酬に比例した離散オブジェクト上の分布を学習するアモータイズされたサンプリング手法である。 GFlowNetsは、多様なサンプルを生成する素晴らしい能力を示していますが、広いサンプル空間での過剰な探索のために、常に高い報酬を持つサンプルを生成するのに苦労することがあります。本稿では,局所探索によるGFlowNetsの学習を提案する。
論文参考訳（メタデータ） (2023-10-04T10:27:17Z)
Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文参考訳（メタデータ） (2023-02-19T03:19:40Z)
Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。 GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文参考訳（メタデータ） (2022-10-07T03:33:56Z)
Learning GFlowNets from partial episodes for improved convergence and stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。 GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文参考訳（メタデータ） (2022-09-26T15:44:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。