論文の概要: MIRA: Towards Mitigating Reward Hacking in Inference-Time Alignment of T2I Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.01549v1
- Date: Thu, 02 Oct 2025 00:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.926448
- Title: MIRA: Towards Mitigating Reward Hacking in Inference-Time Alignment of T2I Diffusion Models
- Title(参考訳): MIRA:T2I拡散モデルの推論時間アライメントにおけるリワードハックの軽減に向けて
- Authors: Kevin Zhai, Utsav Singh, Anirudh Thatipelli, Souradip Chakraborty, Anit Kumar Sahu, Furong Huang, Amrit Singh Bedi, Mubarak Shah,
- Abstract要約: 拡散モデルは、テキストプロンプトに条件付けされた画像を生成するのに優れている。
得られた画像は、Aesthetic Scoresのようなスカラー報酬によって測定されるユーザ固有の基準を満たさないことが多い。
近年,ノイズ最適化による推定時間アライメントが,効率的な代替手段として浮上している。
このアプローチは報酬のハッキングに苦しめられ、モデルが高いスコアの画像を生成できるが、元のプロンプトとはかなり異なる。
- 参考スコア(独自算出の注目度): 86.07486858219137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models excel at generating images conditioned on text prompts, but the resulting images often do not satisfy user-specific criteria measured by scalar rewards such as Aesthetic Scores. This alignment typically requires fine-tuning, which is computationally demanding. Recently, inference-time alignment via noise optimization has emerged as an efficient alternative, modifying initial input noise to steer the diffusion denoising process towards generating high-reward images. However, this approach suffers from reward hacking, where the model produces images that score highly, yet deviate significantly from the original prompt. We show that noise-space regularization is insufficient and that preventing reward hacking requires an explicit image-space constraint. To this end, we propose MIRA (MItigating Reward hAcking), a training-free, inference-time alignment method. MIRA introduces an image-space, score-based KL surrogate that regularizes the sampling trajectory with a frozen backbone, constraining the output distribution so reward can increase without off-distribution drift (reward hacking). We derive a tractable approximation to KL using diffusion scores. Across SDv1.5 and SDXL, multiple rewards (Aesthetic, HPSv2, PickScore), and public datasets (e.g., Animal-Animal, HPDv2), MIRA achieves >60\% win rate vs. strong baselines while preserving prompt adherence; mechanism plots show reward gains with near-zero drift, whereas DNO drifts as compute increases. We further introduce MIRA-DPO, mapping preference optimization to inference time with a frozen backbone, extending MIRA to non-differentiable rewards without fine-tuning.
- Abstract(参考訳): 拡散モデルはテキストプロンプトに条件付けされた画像を生成するのに優れているが、結果として得られる画像は、美的スコアのようなスカラー報酬によって測定されるユーザ固有の基準を満たさないことが多い。
このアライメントは通常、微調整を必要とし、計算的に要求される。
近年,ノイズ最適化による推論時間アライメントが効率のよい方法として登場し,拡散デノナイジング過程を高解像度画像の生成に向け,初期入力ノイズを修正している。
しかし、このアプローチは報酬のハッキングに悩まされ、モデルがスコアの高い画像を生成するが、元のプロンプトとはかなり異なる。
ノイズ空間の正規化は不十分であり、報酬のハッキングを防ぐには画像空間の明示的な制約が必要であることを示す。
そこで本研究では,MIRA (Mitigating Reward hAcking) を提案する。
MIRAは、イメージスペース、スコアベースのKLサロゲートを導入し、サンプリング軌跡を凍結したバックボーンで規則化し、出力分布を制限し、報酬はオフディストリビューションドリフトなしで増加させることができる(リワードハッキング)。
拡散スコアを用いたKLの抽出可能な近似を導出する。
SDv1.5とSDXL、複数の報酬(Aesthetic、HPSv2、PickScore)、公開データセット(例:Animal-Animal、HPDv2)、MIRAはプロンプトの付着を保ちながら60倍の勝利率を達成した。
さらに、MIRA-DPOを導入し、凍結したバックボーンによる推論時間に対する好みの最適化を行い、微調整なしでMIRAを非微分可能報酬に拡張する。
関連論文リスト
- Learn to Guide Your Diffusion Model [84.82855046749657]
本研究では,条件付き拡散モデルによる試料の品質向上手法について検討する。
誘導ウェイトは$omega_c,(s,t)$で、条件付き$c$、飾る時間$t$、飾る時間$s$の関数です。
我々は,モデルが報酬関数によって傾いた分布を目標にすることができるように,フレームワークを拡張して報酬付きサンプリングを行う。
論文 参考訳(メタデータ) (2025-10-01T12:21:48Z) - Continuous Speculative Decoding for Autoregressive Image Generation [27.308442169466975]
連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。
投機的復号化は 事実上 自己回帰推論を加速させた
この研究は、低受理率、不整合出力分布、解析式のない修正分布からの課題に対処する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z) - David and Goliath: Small One-step Model Beats Large Diffusion with Score Post-training [8.352666876052616]
Diff-Instruct* (DI*) は1ステップのテキスト・ツー・イメージ生成モデルのためのデータ効率のよいポストトレーニング手法である。
提案手法は,人的フィードバックからオンライン強化学習としてアライメントを行う。
我々の2.6B emphDI*-SDXL-1stepモデルは、50ステップのFLUX-devモデルより優れている。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Direct Unsupervised Denoising [60.71146161035649]
教師なしのデノイザは、MMSE推定のような単一の予測を直接生成しない。
本稿では,VAEと並んで決定論的ネットワークを訓練し,中心的な傾向を直接予測するアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-27T13:02:12Z) - On the Posterior Distribution in Denoising: Application to Uncertainty
Quantification [28.233696029453775]
ツイーディの公式は、ガウスにおける後平均とデータ分布のスコアを結びつける。
画像の任意の所望領域に対する後部分布の主成分を効率的に計算する方法を示す。
高次モーメントテンソルを明示的に計算したり保存したりしないので,本手法は高速かつメモリ効率が高い。
論文 参考訳(メタデータ) (2023-09-24T10:07:40Z) - RAIN: A Simple Approach for Robust and Accurate Image Classification
Networks [156.09526491791772]
既存の敵防衛手法の大部分は、予測精度を犠牲にして堅牢性を実現することが示されている。
本稿では,ロバストおよび高精度画像分類N(RAIN)と呼ぶ新しい前処理フレームワークを提案する。
RAINは入力に対してランダム化を適用して、モデルフォワード予測パスと後方勾配パスの関係を壊し、モデルロバスト性を改善する。
STL10 と ImageNet のデータセットを用いて、様々な種類の敵攻撃に対する RAIN の有効性を検証する。
論文 参考訳(メタデータ) (2020-04-24T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。