Fugu-MT 論文翻訳(概要): Beyond the Proxy: Trajectory-Distilled Guidance for Offline GFlowNet Training

論文の概要: Beyond the Proxy: Trajectory-Distilled Guidance for Offline GFlowNet Training

arxiv url: http://arxiv.org/abs/2505.20110v2
Date: Fri, 26 Sep 2025 13:08:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-29 16:35:18.866915
Title: Beyond the Proxy: Trajectory-Distilled Guidance for Offline GFlowNet Training
Title（参考訳）: プロキシを超えて:オフラインGFlowNetトレーニングのための軌道拡張ガイダンス
Authors: Ruishuo Chen, Xun Wang, Rui Hu, Zhuoran Li, Longbo Huang,
Abstract要約: Trajectory-Distilled GFlowNet(TD-GFN)は、新しいプロキシフリートレーニングフレームワークである。逆強化学習を通じて、オフライン軌道から高密度で遷移レベルなエッジ報酬を学習する。コンバージェンス速度と最終サンプル品質の両方において、既存のベースラインを大きく上回っている。
参考スコア（独自算出の注目度）: 36.64849664688883
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative Flow Networks (GFlowNets) are effective at sampling diverse, high-reward objects, but in many real-world settings where new reward queries are infeasible, they must be trained from offline datasets. The prevailing proxy-based training methods are susceptible to error propagation, while existing proxy-free approaches often use coarse constraints that limit exploration. To address these issues, we propose Trajectory-Distilled GFlowNet (TD-GFN), a novel proxy-free training framework. TD-GFN learns dense, transition-level edge rewards from offline trajectories via inverse reinforcement learning to provide rich structural guidance for efficient exploration. Crucially, to ensure robustness, these rewards are used indirectly to guide the policy through DAG pruning and prioritized backward sampling of training trajectories. This ensures that final gradient updates depend only on ground-truth terminal rewards from the dataset, thereby preventing the error propagation. Experiments show that TD-GFN significantly outperforms a broad range of existing baselines in both convergence speed and final sample quality, establishing a more robust and efficient paradigm for offline GFlowNet training.
Abstract（参考訳）: Generative Flow Networks(GFlowNets)は、多種多様なハイリワードオブジェクトのサンプリングに有効だが、新しい報酬クエリが実現不可能な多くの現実世界環境では、オフラインデータセットからトレーニングする必要がある。一般的なプロキシベースのトレーニング手法はエラーの伝搬に影響を受けやすいが、既存のプロキシフリーアプローチでは探索を制限する粗い制約を用いることが多い。これらの問題に対処するために,新しいプロキシフリートレーニングフレームワークであるTrjectory-Distilled GFlowNet (TD-GFN)を提案する。 TD-GFNは、効率的な探索のためのリッチな構造的ガイダンスを提供するために、逆強化学習を通じて、オフライン軌道から密度の高い遷移レベルのエッジ報酬を学習する。重要なことは、堅牢性を確保するために、これらの報酬はDAGプルーニングを通じて政策を誘導するために間接的に使用され、訓練軌跡の後方サンプリングが優先される。これにより、最終的な勾配更新はデータセットから得られる地味な端末の報酬にのみ依存し、エラーの伝搬を防止できる。実験により、TD-GFNは収束速度と最終サンプル品質の両方において、既存のベースラインを大きく上回っており、オフラインGFlowNetトレーニングのより堅牢で効率的なパラダイムを確立している。

関連論文リスト

A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation [16.82426251068573]
リンク予測(LP)は、グラフ機械学習において重要なタスクである。既存の手法は、疎結合性からの限られた監督を含む重要な課題に直面している。これらの課題に対処するためのソリューションとして,事前学習について検討する。
論文参考訳（メタデータ） (2025-08-06T17:10:31Z)
Towards Improving Long-Tail Entity Predictions in Temporal Knowledge Graphs through Global Similarity and Weighted Sampling [53.11315884128402]
時間知識グラフ(TKG)補完モデルは、伝統的にトレーニング中にグラフ全体へのアクセスを前提としている。本稿では,TKGに特化して設計されたインクリメンタルトレーニングフレームワークを提案する。提案手法は,モデルに依存しない拡張層と加重サンプリング戦略を組み合わせることで,既存のTKG補完手法を拡張および改善することができる。
論文参考訳（メタデータ） (2025-07-25T06:02:48Z)
Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文参考訳（メタデータ） (2025-06-16T17:59:40Z)
Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文参考訳（メタデータ） (2025-03-03T07:31:40Z)
Subsampling Graphs with GNN Performance Guarantees [34.32848091746629]
グラフデータセットに対する新しいサブサンプリング手法を提案する。サブサンプルデータ上でのGNNのトレーニングは、完全なデータセットでのトレーニングと比較して、損失のバウンド増加をもたらすことを証明している。
論文参考訳（メタデータ） (2025-02-23T20:21:16Z)
Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
ディープオペレータネットワーク(DeepNet)は、様々な科学的・工学的応用における複雑な力学のリアルタイム予測に成功している。本稿では,DeepONetのトレーニングを取り入れたランダムサンプリング手法を提案する。実験の結果,訓練中にトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性と堅牢性が向上し,複雑な物理系のモデリングにおけるフレームワークの性能向上に期待できる道筋が得られた。
論文参考訳（メタデータ） (2024-09-20T07:18:31Z)
Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets [27.33222647437964]
Generative Flow Networks (GFlowNets) は、多種多様なハイリワード候補を生成する顕著な能力を示した。しかし、そのようなモデルの訓練は、極めて少ない報酬のために困難である。この問題を解決するために,textbfRetrospective textbfBackward textbfSynthesis (textbfRBS) という新しい手法を提案する。
論文参考訳（メタデータ） (2024-06-03T09:44:10Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文参考訳（メタデータ） (2023-10-05T09:53:22Z)
Generative Flow Networks for Precise Reward-Oriented Active Learning on Graphs [34.76241250013461]
本稿では,グラフ能動学習問題をGFlowGNNと呼ばれる生成過程として定式化し,逐次動作によって様々なサンプルを生成する。提案手法は,様々な最先端手法よりも優れた探索能力と伝達性を有することを示す。
論文参考訳（メタデータ） (2023-04-24T10:47:08Z)
Analyzing the Effect of Sampling in GNNs on Individual Fairness [79.28449844690566]
グラフニューラルネットワーク(GNN)ベースの手法は、レコメンダシステムの分野を飽和させた。我々は,GNNの学習を支援するために,グラフ上で個別の公平性を促進させる既存手法を拡張した。本研究では,局所ニュアンスが表現学習における公平化促進の過程を導くことによって,ミニバッチトレーニングが個人の公正化を促進することを示す。
論文参考訳（メタデータ） (2022-09-08T16:20:25Z)
Comprehensive Graph Gradual Pruning for Sparse Training in Graph Neural Networks [52.566735716983956]
本稿では,CGPと呼ばれるグラフの段階的プルーニングフレームワークを動的にGNNに提案する。 LTHに基づく手法とは異なり、提案手法では再学習を必要とせず、計算コストを大幅に削減する。提案手法は,既存の手法の精度を一致させたり,あるいは超えたりしながら,トレーニングと推論の効率を大幅に向上させる。
論文参考訳（メタデータ） (2022-07-18T14:23:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。