論文の概要: Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps
- arxiv url: http://arxiv.org/abs/2602.05993v1
- Date: Thu, 05 Feb 2026 18:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.128124
- Title: Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps
- Title(参考訳): ダイヤモンドマップ:確率フローマップによる効率的な逆アライメント
- Authors: Peter Holderrieth, Douglas Chen, Luca Eyring, Ishin Shah, Giri Anantharaman, Yutong He, Zeynep Akata, Tommi Jaakkola, Nicholas Matthew Boffi, Max Simchowitz,
- Abstract要約: フローと拡散モデルは高品質なサンプルを生成するが、ユーザー好みやトレーニング後の制約に適合させることは、コストがかかり、不安定である。
我々は、効率的な報酬アライメントは、余剰概念ではなく、生成モデル自体の特性であり、適応性のためのモデルであるべきだと主張する。
本稿では,任意の報酬を推論時に効率的に正確にアライメントできるフローマップモデル「ダイアモンドマップ」を提案する。
- 参考スコア(独自算出の注目度): 54.18537904256945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow and diffusion models produce high-quality samples, but adapting them to user preferences or constraints post-training remains costly and brittle, a challenge commonly called reward alignment. We argue that efficient reward alignment should be a property of the generative model itself, not an afterthought, and redesign the model for adaptability. We propose "Diamond Maps", stochastic flow map models that enable efficient and accurate alignment to arbitrary rewards at inference time. Diamond Maps amortize many simulation steps into a single-step sampler, like flow maps, while preserving the stochasticity required for optimal reward alignment. This design makes search, sequential Monte Carlo, and guidance scalable by enabling efficient and consistent estimation of the value function. Our experiments show that Diamond Maps can be learned efficiently via distillation from GLASS Flows, achieve stronger reward alignment performance, and scale better than existing methods. Our results point toward a practical route to generative models that can be rapidly adapted to arbitrary preferences and constraints at inference time.
- Abstract(参考訳): フローと拡散モデルは高品質なサンプルを生成するが、それらをユーザの好みやトレーニング後の制約に適応させることは、コストがかかり不安定であり、一般的に報酬調整と呼ばれる課題である。
我々は、効率的な報酬アライメントは、後から考えるのではなく、生成モデル自体の特性であるべきであり、適応性のためにモデルを再設計するべきだと主張している。
本稿では,確率的フローマップモデルであるダイアモンドマップを提案する。
ダイアモンドマップは、最適な報酬調整に必要な確率を保ちながら、フローマップのような単一ステップのサンプルに多くのシミュレーションステップを記憶する。
この設計により、値関数の効率的で一貫した推定を可能にすることにより、探索、シーケンシャルなモンテカルロ、ガイダンスをスケーラブルにする。
実験の結果, ダイヤモンドマップはGLASSフローからの蒸留により効率よく学習でき, 報奨アライメント性能が向上し, 既存の方法よりも拡張性が高いことがわかった。
この結果から,任意の選好や制約に迅速に適応できる生成モデルへの実践的な経路が示唆された。
関連論文リスト
- Meta Flow Maps enable scalable reward alignment [22.109809498990362]
生成モデルの制御には計算コストがかかる。
これは、推論時ステアリングや微調整による報酬関数の最適アライメントが、値関数を推定することを要求するためである。
フレームワークの一貫性モデルであるMeta Flow Map (MFM)を導入し、フローマップをシステムの拡張に適用する。
論文 参考訳(メタデータ) (2026-01-20T19:39:56Z) - Test-time scaling of diffusions with flow maps [68.79792714591564]
テスト時の拡散モデルを改善するための一般的なレシピは、報酬の勾配を拡散そのものの力学に導入することである。
フローマップを直接扱うことで,簡単な解を提案する。
本研究では, 流図と流速場の関係を利用して, 従来のテスト時間法よりも精度の高いフローマップトラジェクトリ・ティルティング (FMTT) アルゴリズムを構築した。
論文 参考訳(メタデータ) (2025-11-27T18:44:12Z) - DiffuMatch: Category-Agnostic Spectral Diffusion Priors for Robust Non-rigid Shape Matching [53.39693288324375]
ネットワーク内正規化と関数型マップトレーニングの両方をデータ駆動方式に置き換えることができることを示す。
まず、スコアベース生成モデルを用いてスペクトル領域における関数写像の生成モデルを訓練する。
次に、得られたモデルを利用して、新しい形状コレクション上の基底真理汎関数写像の構造的特性を促進する。
論文 参考訳(メタデータ) (2025-07-31T16:44:54Z) - Align Your Flow: Scaling Continuous-Time Flow Map Distillation [63.927438959502226]
フローマップは、任意の2つのノイズレベルを1ステップで接続し、すべてのステップカウントで有効に保ちます。
画像生成ベンチマークにおいて、Align Your Flowと呼ばれるフローマップモデルを広範囲に検証する。
テキスト条件付き合成において、既存の非横断的訓練された数ステップのサンプルよりも優れたテキスト間フローマップモデルを示す。
論文 参考訳(メタデータ) (2025-06-17T15:06:07Z) - Asynchronously Trained Distributed Topographic Maps [0.0]
分散トレーニングによって特徴マップを生成するために,N$の自律ユニットを用いたアルゴリズムを提案する。
単位の自律性は、分散探索とカスケード駆動の重み更新スキームを組み合わせることで、時間と空間のスパース相互作用によって達成される。
論文 参考訳(メタデータ) (2023-01-20T01:15:56Z) - Smooth Non-Rigid Shape Matching via Effective Dirichlet Energy
Optimization [46.30376601157526]
ディリクレエネルギーによる点状写像の滑らかさを関数型写像パイプラインに導入する。
本稿では,効率よく最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-05T14:07:17Z) - Optimally Efficient Sequential Calibration of Binary Classifiers to
Minimize Classification Error [0.0]
対象変数と推定器のスコア出力について、'最適'なソフトマッピングは、スコア値を確率にマッピングするハードマッピングであることを示す。
提案手法では, 入ってくる新サンプル毎に「最適」なハードマッピングを逐次生成する。
論文 参考訳(メタデータ) (2021-08-19T16:42:40Z) - HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps [81.86923212296863]
HDマップは道路路面の正確な定義と交通ルールの豊富な意味を持つ地図である。
実際の道路トポロジやジオメトリはごくわずかで、自動運転スタックをテストする能力は著しく制限されています。
高品質で多様なHDマップを生成可能な階層グラフ生成モデルであるHDMapGenを提案する。
論文 参考訳(メタデータ) (2021-06-28T17:59:30Z) - Learning Propagation Rules for Attribution Map Generation [146.71503336770886]
本稿では,属性マップを生成する専用手法を提案する。
具体的には,各ピクセルに対して適応的な伝搬規則を可能にする学習可能なプラグインモジュールを提案する。
導入された学習可能なモジュールは、高階差分サポートを備えた任意のオートグレードフレームワークでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-14T16:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。