論文の概要: Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training
- arxiv url: http://arxiv.org/abs/2603.00454v1
- Date: Sat, 28 Feb 2026 04:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.200515
- Title: Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training
- Title(参考訳): GFlowNetトレーニングのためのサブモジュールリプレイ付き根管吸収固定軌道バランス
- Authors: Xi Wang, Wenbo Lu, Shengjie Wang,
- Abstract要約: Generative Flow Networks (GFlowNets) は、大規模な言語モデルを微調整し、報酬-比例後部を近似することができる。
そこで本研究では,根部におけるサブトラジェクティブ・インシュアランス(サブトラジェクトリ・インシュアランス)を定着させる目的として,根管吸収プレフィックスのトラジェクトリ・バランスRapTBを提案する。
さらに、報酬と多様性の両方を促進するサブモジュールリプレイリフレッシュ戦略であるSubMを導入する。
- 参考スコア(独自算出の注目度): 12.149514375308513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Flow Networks (GFlowNets) enable fine-tuning large language models to approximate reward-proportional posteriors, but they remain prone to mode collapse, manifesting as prefix collapse and length bias. We attribute this to two factors: (i) weak credit assignment to early prefixes, and (ii) biased replay that induces a shifted, non-representative training flow distribution. We propose Rooted absorbed prefix Trajectory Balance RapTB, an objective that anchors subtrajectory supervision at the root and propagates terminal rewards to intermediate prefixes via absorbed suffix-based backups, providing dense prefix-level learning signals. To mitigate replay-induced distribution shift, we further introduce SubM, a submodular replay refresh strategy that promotes both high reward and diversity. Empirically, on tasks such as molecule generation with LLM using SMILES strings, RapTB combined with SubM consistently improves optimization performance and molecular diversity while preserving high validity.
- Abstract(参考訳): ジェネレーティブ・フロー・ネットワーク(GFlowNets)は、微調整された大きな言語モデルで報酬-比例後部を近似することができるが、プレフィックスの崩壊と長さバイアスとして表されるモード崩壊の傾向にある。
これを2つの要因とみなす。
一 早期の前置詞に対する信用割当の弱さ
(II)非表現的トレーニングフロー分布の変化を誘発するバイアス付きリプレイ。
本稿では,根底部におけるサブトラジェクトリ・インシュアランスを固定し,吸収接頭辞ベースのバックアップを通じて中間接頭辞への終末報酬を伝達し,接頭辞レベルの深い学習信号を提供する目的である,根付き吸収接頭辞Trajectory Balance RapTBを提案する。
リプレイによる流通シフトを軽減するために,高報酬と多様性の両立を促進するサブモジュールリプレイ・リフレッシュ戦略であるSubMを導入する。
SMILES文字列を用いたLLMを用いた分子生成などのタスクにおいて、SubMと組み合わせたRapTBは、高い妥当性を維持しながら、最適化性能と分子多様性を一貫して改善する。
関連論文リスト
- Small Reward Models via Backward Inference [100.59075794599768]
FLIP (FLipped Inference for Prompt Reconstruction) は、参照フリーでルーリックフリーな報酬モデリング手法である。
報酬モデリングを後方推論によって再構成し、与えられた応答を最も確実に生成する命令を推論する。
論文 参考訳(メタデータ) (2026-02-14T01:55:39Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Learning a Generative Meta-Model of LLM Activations [75.30161960337892]
ネットワークの内部状態の分布を学習する"メタモデル"を作成します。
ステアリング介入前に学んだメタモデルを適用することで、損失が減少するにつれて、流速が向上する。
これらの結果は、生成的メタモデルが制限的な構造的仮定を伴わずに、解釈可能性へのスケーラブルな経路を提供することを示唆している。
論文 参考訳(メタデータ) (2026-02-06T18:59:56Z) - Diffusion-DRF: Differentiable Reward Flow for Video Diffusion Fine-Tuning [72.16213872139748]
Diffusion-DRFは、微調整ビデオ拡散モデルのための微分可能な報酬フローである。
拡散縮退鎖を介してVLMフィードバックをバックプロパゲートする。
ビデオの品質とセマンティックアライメントを改善し、報酬のハッキングと崩壊を緩和する。
論文 参考訳(メタデータ) (2026-01-07T18:05:08Z) - RED-F: Reconstruction-Elimination based Dual-stream Contrastive Forecasting for Multivariate Time Series Anomaly Prediction [19.04414742117033]
本稿では,再構成に基づくDual-stream Contrastive Forecasting フレームワークを提案する。
このフレームワークは、絶対信号検出の難しいタスクを、相対軌道比較のより単純で堅牢なタスクに変換する。
6つの実世界のデータセットの実験は、異常予測タスクにおけるRED-Fの優れた能力を示している。
論文 参考訳(メタデータ) (2025-11-25T08:11:41Z) - Boosted GFlowNets: Improving Exploration via Sequential Learning [13.119757506183392]
Boosted GFlowNetsは、GFlowNetsのアンサンブルを逐次訓練する手法で、それぞれが、以前のモデルで既に捕獲された質量を補償する残留報酬を最適化する。
本稿では, マルチモーダル合成ベンチマークとペプチド設計タスクにおいて, GFlowNetsの探索とサンプルの多様性を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-12T19:30:11Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Plug-and-Play Prompt Refinement via Latent Feedback for Diffusion Model Alignment [54.17386822940477]
PromptLoopはプラグインとプレイの強化学習フレームワークで、遅延フィードバックをステップワイドな即興改善に組み込む。
この設計は、プロンプトベースのアライメントの柔軟性と一般性を維持しながら、拡散RLアプローチと構造的な類似性を実現する。
論文 参考訳(メタデータ) (2025-10-01T02:18:58Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。