論文の概要: Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2404.15100v1
- Date: Tue, 23 Apr 2024 14:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:32:19.115269
- Title: Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation
- Title(参考訳): マルチモーダル大言語モデル : テキスト・画像生成のためのアノテータ
- Authors: Xun Wu, Shaohan Huang, Furu Wei,
- Abstract要約: VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
- 参考スコア(独自算出の注目度): 87.50120181861362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated the exceptional potentials of leveraging human preference datasets to refine text-to-image generative models, enhancing the alignment between generated images and textual prompts. Despite these advances, current human preference datasets are either prohibitively expensive to construct or suffer from a lack of diversity in preference dimensions, resulting in limited applicability for instruction tuning in open-source text-to-image generative models and hinder further exploration. To address these challenges and promote the alignment of generative models through instruction tuning, we leverage multimodal large language models to create VisionPrefer, a high-quality and fine-grained preference dataset that captures multiple preference aspects. We aggregate feedback from AI annotators across four aspects: prompt-following, aesthetic, fidelity, and harmlessness to construct VisionPrefer. To validate the effectiveness of VisionPrefer, we train a reward model VP-Score over VisionPrefer to guide the training of text-to-image generative models and the preference prediction accuracy of VP-Score is comparable to human annotators. Furthermore, we use two reinforcement learning methods to supervised fine-tune generative models to evaluate the performance of VisionPrefer, and extensive experimental results demonstrate that VisionPrefer significantly improves text-image alignment in compositional image generation across diverse aspects, e.g., aesthetic, and generalizes better than previous human-preference metrics across various image distributions. Moreover, VisionPrefer indicates that the integration of AI-generated synthetic data as a supervisory signal is a promising avenue for achieving improved alignment with human preferences in vision generative models.
- Abstract(参考訳): 近年の研究では、人間の嗜好データセットを活用してテキスト・ツー・イメージ生成モデルを洗練し、生成した画像とテキスト・プロンプトの整合性を高めるという異例の可能性を実証している。
これらの進歩にもかかわらず、現在の人間の嗜好データセットは、好みの次元の多様性が欠如しているため、オープンソースのテキスト・ツー・イメージ生成モデルにおける命令チューニングの適用性が制限され、さらなる探索が妨げられる。
これらの課題に対処し、命令チューニングによる生成モデルのアライメントを促進するために、マルチモーダルな大規模言語モデルを用いて、複数の嗜好面をキャプチャする高品質できめ細かい選好データセットであるVisionPreferを作成します。
私たちはAIアノテータからのフィードバックを、VisionPreferを構築するために、プロンプトフォロー、美学、忠実さ、無害性の4つの側面に集約します。
VisionPreferの有効性を検証するために、VisionPreferよりも報酬モデルVP-Scoreを訓練し、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテータに匹敵する。
さらに、2つの強化学習手法を用いて微調整生成モデルを用いてVisionPreferの性能評価を行い、VisionPreferは様々な側面、例えば美的側面、および様々な画像分布における従来の人為的基準指標よりも優れた合成画像生成におけるテキスト画像アライメントを著しく改善することを示した。
さらに、VisionPreferは、AI生成した合成データを監視信号として統合することは、視覚生成モデルにおける人間の嗜好との整合性を改善するための有望な道であることを示している。
関連論文リスト
- Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback [5.9726297901501475]
直接選好最適化(DPO)を利用した人体画像生成に特化した新しいアプローチを提案する。
具体的には、コストのかかる人的フィードバックを必要とせずに、人間の画像生成モデルを訓練するための特殊なDPOデータセットを構築するための効率的な方法を提案する。
本手法は,画像のパーソナライズ・テキスト・ツー・イメージ生成など,画像生成の汎用性と有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T16:18:05Z) - Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。