論文の概要: FAIL: Flow Matching Adversarial Imitation Learning for Image Generation
- arxiv url: http://arxiv.org/abs/2602.12155v1
- Date: Thu, 12 Feb 2026 16:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.939593
- Title: FAIL: Flow Matching Adversarial Imitation Learning for Image Generation
- Title(参考訳): FAIL:画像生成のためのフローマッチング逆模倣学習
- Authors: Yeyao Ma, Chen Li, Xiaosong Zhang, Han Hu, Weidi Xie,
- Abstract要約: フローマッチングモデルのポストトレーニング-高品質な目標値による出力分布の調整-数学的にはImitation Learningと等価である。
本研究では,明示的な報酬やペア比較を伴わずに,対人訓練による政策-専門的差異を最小限に抑えるフローマッチング・アドリアラーニング(FAIL)を提案する。
- 参考スコア(独自算出の注目度): 52.643484089126844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training of flow matching models-aligning the output distribution with a high-quality target-is mathematically equivalent to imitation learning. While Supervised Fine-Tuning mimics expert demonstrations effectively, it cannot correct policy drift in unseen states. Preference optimization methods address this but require costly preference pairs or reward modeling. We propose Flow Matching Adversarial Imitation Learning (FAIL), which minimizes policy-expert divergence through adversarial training without explicit rewards or pairwise comparisons. We derive two algorithms: FAIL-PD exploits differentiable ODE solvers for low-variance pathwise gradients, while FAIL-PG provides a black-box alternative for discrete or computationally constrained settings. Fine-tuning FLUX with only 13,000 demonstrations from Nano Banana pro, FAIL achieves competitive performance on prompt following and aesthetic benchmarks. Furthermore, the framework generalizes effectively to discrete image and video generation, and functions as a robust regularizer to mitigate reward hacking in reward-based optimization. Code and data are available at https://github.com/HansPolo113/FAIL.
- Abstract(参考訳): 模擬学習と数学的に等価な,高品質な目標値の出力分布を調整したフローマッチングモデルのポストトレーニング
Supervised Fine-Tuningは専門家によるデモンストレーションを効果的に模倣するが、目に見えない状態でポリシーのドリフトを修正することはできない。
優先順位最適化手法はこの問題に対処するが、コストのかかる選好ペアや報奨モデルを必要とする。
本研究では,明示的な報酬やペア比較を伴わずに,対人訓練による政策-専門家の分散を最小限に抑えるフローマッチング・シミュレーション・ラーニング(FAIL)を提案する。
FAIL-PDは低分散経路勾配に対して微分可能なODEソルバを利用しており、FAIL-PGは離散的あるいは計算的に制約された設定に対してブラックボックスの代替手段を提供する。
FAILはNano Banana Proからわずか13,000のデモしか持たない微調整のFLUXで、プロンプトフォローと美的ベンチマークで競合するパフォーマンスを達成している。
さらに、このフレームワークは、離散画像およびビデオ生成を効果的に一般化し、報酬ベースの最適化において報酬ハッキングを緩和する堅牢な正規化器として機能する。
コードとデータはhttps://github.com/HansPolo113/FAILで公開されている。
関連論文リスト
- Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback [41.41713036839503]
本稿では,ポリシー最適化に基づく命令ベースの画像編集のための新しいポストトレーニングフレームワークであるEdit-R1を紹介する。
我々は,Multimodal Large Language Model (MLLM) を統一学習自由報酬モデルとして採用し,その出力ロジットを活用し,きめ細かいフィードバックを提供する。
私たちのフレームワークはモデルに依存しないため、多様なベースモデルに適用した場合、大幅なパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2025-10-19T15:38:06Z) - MIRA: Towards Mitigating Reward Hacking in Inference-Time Alignment of T2I Diffusion Models [86.07486858219137]
拡散モデルは、テキストプロンプトに条件付けされた画像を生成するのに優れている。
得られた画像は、Aesthetic Scoresのようなスカラー報酬によって測定されるユーザ固有の基準を満たさないことが多い。
近年,ノイズ最適化による推定時間アライメントが,効率的な代替手段として浮上している。
このアプローチは報酬のハッキングに苦しめられ、モデルが高いスコアの画像を生成できるが、元のプロンプトとはかなり異なる。
論文 参考訳(メタデータ) (2025-10-02T00:47:36Z) - Beyond Optimal Transport: Model-Aligned Coupling for Flow Matching [59.97254029720877]
フローマッチング(FM)は、サンプルをソース分布からターゲット分布へ輸送するベクトル場を学習するモデルを訓練するための効果的なフレームワークである。
本稿では,幾何距離に基づく学習結合を効果的にマッチングするモデル結合結合(MAC)を提案する。
実験により、MACは既存の手法と比較して、数ステップ設定で生成品質と効率を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-05-29T11:10:41Z) - Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。
トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。
証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文 参考訳(メタデータ) (2025-02-19T07:10:32Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Deep Implicit Optimization enables Robust Learnable Features for Deformable Image Registration [20.34181966545357]
既存のDLIR(Deep Learning in Image Registration)メソッドは、最適化をディープネットワークの層として明示的に組み込むものではない。
提案手法は,ディープネットワークの層として最適化を明示的に取り入れることで,統計的学習と最適化のギャップを埋めることを示す。
我々のフレームワークは、ドメイン内のデータセットで優れたパフォーマンスを示し、ドメインシフトに依存しない。
論文 参考訳(メタデータ) (2024-06-11T15:28:48Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。