論文の概要: MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
- arxiv url: http://arxiv.org/abs/2510.25897v1
- Date: Wed, 29 Oct 2025 18:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.543965
- Title: MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
- Title(参考訳): MIRO:MultI-Reward cOnditioned PretrainingはT2Iの品質と効率を改善する
- Authors: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard,
- Abstract要約: 現在のテキスト・ツー・イメージ生成モデルは、大規模な未処理データセットに基づいて訓練されている。
トレーニング中に複数の報酬モデルにモデルを条件付けすることで,モデルがユーザの好みを直接学習できるようにする。
- 参考スコア(独自算出の注目度): 21.27005111847166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current text-to-image generative models are trained on large uncurated datasets to enable diverse generation capabilities. However, this does not align well with user preferences. Recently, reward models have been specifically designed to perform post-hoc selection of generated images and align them to a reward, typically user preference. This discarding of informative data together with the optimizing for a single reward tend to harm diversity, semantic fidelity and efficiency. Instead of this post-processing, we propose to condition the model on multiple reward models during training to let the model learn user preferences directly. We show that this not only dramatically improves the visual quality of the generated images but it also significantly speeds up the training. Our proposed method, called MIRO, achieves state-of-the-art performances on the GenEval compositional benchmark and user-preference scores (PickAScore, ImageReward, HPSv2).
- Abstract(参考訳): 現在のテキスト・ツー・イメージ生成モデルは、さまざまな生成機能を実現するために、大規模な未処理データセットでトレーニングされている。
しかし、これはユーザの好みとうまく一致しない。
近年、報酬モデルは、生成した画像のポストホック選択を実行し、典型的にはユーザー好みの報酬に合わせるように設計されている。
この情報的データの破棄と1つの報酬の最適化は、多様性、セマンティックな忠実さ、効率性を損なう傾向がある。
この後処理の代わりに、トレーニング中に複数の報酬モデルにモデルを条件付けして、モデルに直接ユーザの好みを学習させることを提案する。
これは生成した画像の視覚的品質を劇的に向上させるだけでなく、トレーニングを著しく高速化することを示す。
提案手法はMIROと呼ばれ,GenEvalのコンポジションベンチマークとユーザ嗜好スコア(PickAScore, ImageReward, HPSv2)を用いて,最先端のパフォーマンスを実現する。
関連論文リスト
- EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing [43.239693852521185]
mnameは、命令誘導画像編集タスクにおいて、人間の好みと優れた整合性を示す。
mnameはGenAI-Bench、AURORA-Bench、ImagenHub、そして私たちの新しいベンチネームといった確立したベンチマークに対して、最先端の人間相関を実現する。
トレーニングデータセットを備えたmnameがリリースされ、コミュニティがより高品質な画像編集トレーニングデータセットを構築するのに役立つ。
論文 参考訳(メタデータ) (2025-09-30T14:51:04Z) - Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [61.31036260686349]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。
具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。
努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文 参考訳(メタデータ) (2025-05-22T15:05:07Z) - Capturing Individual Human Preferences with Reward Features [47.43999785878563]
個人の好みを一般報酬特徴の線形結合として捉えることができることを示す。
このような特徴を学習し、その後、報酬モデルを特定の個人に迅速に適応させる方法を示します。
提案するアーキテクチャを非適応型報酬モデルと適応型報酬モデルと比較し,大規模言語モデルを用いた実験を行った。
論文 参考訳(メタデータ) (2025-03-21T17:39:33Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Human Preference Score: Better Aligning Text-to-Image Models with Human
Preference [41.270068272447055]
我々は、Stable Foundation Discordチャネルから生成された画像に基づいて、人間の選択のデータセットを収集する。
本実験は, 生成モデルに対する現在の評価指標が, 人間の選択とよく相関しないことを示した。
本研究では,人間の好みに合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T10:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。