論文の概要: Meta Flow Maps enable scalable reward alignment
- arxiv url: http://arxiv.org/abs/2601.14430v1
- Date: Tue, 20 Jan 2026 19:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.134523
- Title: Meta Flow Maps enable scalable reward alignment
- Title(参考訳): Meta Flow Mapsは、スケーラブルな報酬アライメントを可能にする
- Authors: Peter Potaptchik, Adhi Saravanan, Abbas Mammadov, Alvaro Prat, Michael S. Albergo, Yee Whye Teh,
- Abstract要約: 生成モデルの制御には計算コストがかかる。
これは、推論時ステアリングや微調整による報酬関数の最適アライメントが、値関数を推定することを要求するためである。
フレームワークの一貫性モデルであるMeta Flow Map (MFM)を導入し、フローマップをシステムの拡張に適用する。
- 参考スコア(独自算出の注目度): 22.109809498990362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlling generative models is computationally expensive. This is because optimal alignment with a reward function--whether via inference-time steering or fine-tuning--requires estimating the value function. This task demands access to the conditional posterior $p_{1|t}(x_1|x_t)$, the distribution of clean data $x_1$ consistent with an intermediate state $x_t$, a requirement that typically compels methods to resort to costly trajectory simulations. To address this bottleneck, we introduce Meta Flow Maps (MFMs), a framework extending consistency models and flow maps into the stochastic regime. MFMs are trained to perform stochastic one-step posterior sampling, generating arbitrarily many i.i.d. draws of clean data $x_1$ from any intermediate state. Crucially, these samples provide a differentiable reparametrization that unlocks efficient value function estimation. We leverage this capability to solve bottlenecks in both paradigms: enabling inference-time steering without inner rollouts, and facilitating unbiased, off-policy fine-tuning to general rewards. Empirically, our single-particle steered-MFM sampler outperforms a Best-of-1000 baseline on ImageNet across multiple rewards at a fraction of the compute.
- Abstract(参考訳): 生成モデルの制御には計算コストがかかる。
これは、推論時ステアリングや微調整による報酬関数の最適アライメントが、値関数を推定することを要求するためである。
このタスクは条件付き後部$p_{1|t}(x_1|x_t)$へのアクセスを要求し、クリーンデータ$x_1$の分布は中間状態$x_t$と一致している。
このボトルネックに対処するために,一貫性モデルとフローマップを確率的構造に拡張するフレームワークであるMeta Flow Maps(MFM)を紹介した。
MFMは確率的な1ステップの後方サンプリングを実行するように訓練され、任意の中間状態から任意の数のクリーンデータ$x_1$を任意に生成する。
重要なことに、これらのサンプルは、効率的な値関数推定を解放する微分可能な再パラメータ化を提供する。
私たちはこの能力を利用して、両方のパラダイムのボトルネックを解決する。内部ロールアウトなしで推論時のステアリングを可能にし、偏見のない、非政治的な微調整を一般的な報酬に役立てる。
経験的に、私たちの単一粒子ステアリング-MFMサンプリングは、計算のごく一部で複数の報酬でImageNetのBest-of-1000ベースラインを上回ります。
関連論文リスト
- Value Flows [90.1510269525399]
本稿では, フローベースモデルを用いて, 将来のリターン分布を推定する。
学習したフローモデルに基づいて、新しいフロー微分ODEを用いて、異なる状態の戻り不確かさを推定する。
ステートベース37ドル、イメージベースのベンチマークタスク25ドルの実験では、バリューフローが平均的な成功率で1.3倍の改善を達成している。
論文 参考訳(メタデータ) (2025-10-09T00:57:40Z) - Learn to Guide Your Diffusion Model [84.82855046749657]
本研究では,条件付き拡散モデルによる試料の品質向上手法について検討する。
誘導ウェイトは$omega_c,(s,t)$で、条件付き$c$、飾る時間$t$、飾る時間$s$の関数です。
我々は,モデルが報酬関数によって傾いた分布を目標にすることができるように,フレームワークを拡張して報酬付きサンプリングを行う。
論文 参考訳(メタデータ) (2025-10-01T12:21:48Z) - Marginal Flow: a flexible and efficient framework for density estimation [6.94175385834858]
現在の密度モデリングアプローチは、高価なトレーニング、遅い推論、近似可能性、モード崩壊、アーキテクチャ制約の少なくとも1つの欠点に悩まされている。
これらの制限を完全に克服する、シンプルで強力なフレームワークを提案する。
パラメトリック分布を$q(x|w)$とし、遅延パラメータを$w$とするモデルとして$q_theta(x)$を定義する。
遅延変数$w$を直接最適化する代わりに、学習可能なディストリビューション$q_theta(w)$から$w$をサンプリングしてマージナルフロー(Marginal Flow)と名付けることで、それらをマージライズします。
論文 参考訳(メタデータ) (2025-09-30T13:21:13Z) - Solving dynamic portfolio selection problems via score-based diffusion models [2.355916155602588]
我々は、(生成的)拡散モデルに基づいて、そのモデルのない方法で、動的平均分散ポートフォリオ選択問題に取り組む。
実モデルである $mathbb P$ からサンプリングしたデータを用いて、生成モデルの $mathbb Q$ を訓練する。
時系列データに適した適応的トレーニングとサンプリング手法により、$mathbb P$ と $mathbb Q$ の境界を得る。
論文 参考訳(メタデータ) (2025-07-14T04:41:49Z) - Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。
本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-04T17:46:51Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - An Improved Analysis of Gradient Tracking for Decentralized Machine
Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。
エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。
ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文 参考訳(メタデータ) (2022-02-08T12:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。