論文の概要: Multimodal LLMs as Customized Reward Models for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2507.21391v2
- Date: Wed, 30 Jul 2025 04:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.850989
- Title: Multimodal LLMs as Customized Reward Models for Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のためのカスタマイズリワードモデルとしてのマルチモーダルLCM
- Authors: Shijie Zhou, Ruiyi Zhang, Huaisheng Zhu, Branislav Kveton, Yufan Zhou, Jiuxiang Gu, Jian Chen, Changyou Chen,
- Abstract要約: LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
- 参考スコア(独自算出の注目度): 60.164968941945645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LLaVA-Reward, an efficient reward model designed to automatically evaluate text-to-image (T2I) generations across multiple perspectives, leveraging pretrained multimodal large language models (MLLMs). Existing MLLM-based approaches require instruction-following data for supervised fine-tuning and evaluate generation quality on analyzing text response, which is time-consuming and difficult to train. To address this problem, we propose LLaVA-Reward, which directly utilizes the hidden states of MLLMs given text-image pairs. To enhance the bidirectional interaction between visual and textual representations in decoder-only MLLMs, we further propose adding a Skip-connection Cross Attention (SkipCA) module. This design enhances text-image correlation reasoning by connecting early-layer visual features with later-layer hidden representations. In addition, LLaVA-Reward supports different types of preference data for efficient fine-tuning, including paired preference data and unpaired data. We train LLaVA-Reward on four evaluation perspectives: text-image alignment, fidelity/artifact, safety, and overall ranking. Empirical results demonstrate that LLaVA-Reward outperforms conventional and MLLM-based methods in generating human-aligned scores for automatic evaluations and inference-time scaling in text-to-image generations.
- Abstract(参考訳): LLaVA-Rewardは,マルチモーダル大規模言語モデル(MLLM)を活用し,複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
既存のMLLMベースのアプローチでは、教師付き微調整のための命令追従データを必要とし、テキスト応答の解析における生成品質を評価する。
そこで本研究では,MLLMのテキストイメージペアの隠れ状態を直接利用するLLaVA-Rewardを提案する。
さらに,デコーダのみのMLLMにおける視覚的表現とテキスト的表現の双方向的相互作用を強化するために,Skip-connection Cross Attention (SkipCA)モジュールの追加を提案する。
この設計は、初期層視覚特徴と後層隠れ表現を接続することにより、テキスト画像相関推論を強化する。
さらに、LLaVA-Rewardは、ペアの好みデータとペアなしデータを含む効率的な微調整のために異なるタイプの好みデータをサポートしている。
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
実験の結果,LLaVA-Rewardは,テキスト・画像世代における自動評価と推論時間スケーリングのために,従来のMLLM法およびMLLM法よりも優れていた。
関連論文リスト
- Language Integration in Fine-Tuning Multimodal Large Language Models for Image-Based Regression [2.9998889086656586]
本稿では,トランスフォーマーベース分類(RvTC)が語彙制約型分類を柔軟なビンベースアプローチで置き換える方法を示す。
汎用的なタスク記述とは異なり、特定の画像に関する意味情報を含むプロンプトにより、MLLMはクロスモーダル理解を活用することができる。
論文 参考訳(メタデータ) (2025-07-20T15:05:24Z) - Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。
提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。
13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-02-13T09:04:28Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - LLM Attributor: Interactive Visual Attribution for LLM Generation [29.116016627864095]
Pythonライブラリは、大規模な言語モデルのデータ属性をトレーニングするためのインタラクティブな視覚化を提供する。
我々のライブラリは、LCMのテキスト生成をデータポイントのトレーニングに素早く対応させる新しい方法を提供する。
論文 参考訳(メタデータ) (2024-04-01T13:16:34Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。