論文の概要: SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2412.05818v1
- Date: Sun, 08 Dec 2024 05:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:18.535452
- Title: SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation
- Title(参考訳): SILMM: 合成テキスト・画像生成のための大規模マルチモーダルモデルの自己改善
- Authors: Leigang Qu, Haochuan Li, Wenjie Wang, Xiang Liu, Juncheng Li, Liqiang Nie, Tat-Seng Chua,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
- 参考スコア(独自算出の注目度): 92.73405185996315
- License:
- Abstract: Large Multimodal Models (LMMs) have demonstrated impressive capabilities in multimodal understanding and generation, pushing forward advancements in text-to-image generation. However, achieving accurate text-image alignment for LMMs, particularly in compositional scenarios, remains challenging. Existing approaches, such as layout planning for multi-step generation and learning from human feedback or AI feedback, depend heavily on prompt engineering, costly human annotations, and continual upgrading, limiting flexibility and scalability. In this work, we introduce a model-agnostic iterative self-improvement framework (SILMM) that can enable LMMs to provide helpful and scalable self-feedback and optimize text-image alignment via Direct Preference Optimization (DPO). DPO can readily applied to LMMs that use discrete visual tokens as intermediate image representations; while it is less suitable for LMMs with continuous visual features, as obtaining generation probabilities is challenging. To adapt SILMM to LMMs with continuous features, we propose a diversity mechanism to obtain diverse representations and a kernel-based continuous DPO for alignment. Extensive experiments on three compositional text-to-image generation benchmarks validate the effectiveness and superiority of SILMM, showing improvements exceeding 30% on T2I-CompBench++ and around 20% on DPG-Bench.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示し、テキスト・画像生成の進歩を推し進めている。
しかし、特に構成シナリオにおいて、LMMの正確なテキスト画像アライメントを実現することは、依然として困難である。
マルチステップ生成のためのレイアウト計画や、ヒューマンフィードバックやAIフィードバックからの学習といった既存のアプローチは、迅速なエンジニアリング、コストのかかるヒューマンアノテーション、継続的なアップグレード、柔軟性とスケーラビリティの制限に大きく依存しています。
本研究では、モデルに依存しない反復的自己改善フレームワーク(SILMM)を導入し、LMMが有用でスケーラブルな自己フィードバックを提供し、直接優先度最適化(DPO)を介してテキストイメージアライメントを最適化できるようにする。
DPOは、離散的な視覚トークンを中間画像表現として使用するLMMに容易に適用できるが、生成確率を得るためには、連続的な視覚特徴を持つLMMには適さない。
SILMMを連続的な特徴を持つLMMに適用するために,多様な表現を得るための多様性機構と,アライメントのためのカーネルベースの連続DPOを提案する。
T2I-CompBench++では30%, DPG-Benchでは20%以上の改善が見られた。
関連論文リスト
- Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models [43.16111789538798]
大規模マルチモーダルモデル(LMM)の多言語機能を活用した並列多言語プロンプトを構築する。
3つのベンチマークにおける2つのLMM実験により,提案手法であるPMT2Iが,一般に優れた性能,構成,きめ細かな評価を達成できることが判明した。
論文 参考訳(メタデータ) (2025-01-13T06:41:23Z) - ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。
画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。
従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文 参考訳(メタデータ) (2024-12-09T17:11:50Z) - MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective [32.55432949789787]
大規模マルチモーダルモデル(LMM)は目覚ましい機能を示している。
入力画像から画像のプロンプトを生成するためにLMMを必要とする簡易な自動評価パイプラインを提案する。
次に、テキストから画像への生成モデルを用いて、生成したプロンプトに基づいて新しい画像を生成する。
最後に,元の画像と生成された画像を比較し,LMMの性能を評価する。
論文 参考訳(メタデータ) (2024-11-21T12:16:16Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。