論文の概要: TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization
- arxiv url: http://arxiv.org/abs/2412.18185v3
- Date: Sat, 25 Jan 2025 02:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 15:53:02.511685
- Title: TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization
- Title(参考訳): TextMatch:マルチモーダル最適化による画像-テキスト一貫性の強化
- Authors: Yucong Luo, Mingyue Cheng, Jie Ouyang, Xiaoyu Tao, Qi Liu,
- Abstract要約: 本稿では,テキスト・ツー・イメージ(T2I)生成と編集における画像テキストの相違に対処する新しいフレームワークであるTextMatchを紹介する。
TextMatchは、大きな言語モデル(LLM)と視覚質問回答モデル(VQA)を使用して、プロンプトと生成された画像間のセマンティック一貫性を評価する。
- 参考スコア(独自算出の注目度): 8.591857157392718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models excel in creating images from text but struggle with ensuring alignment and consistency between outputs and prompts. This paper introduces TextMatch, a novel framework that leverages multimodal optimization to address image-text discrepancies in text-to-image (T2I) generation and editing. TextMatch employs a scoring strategy powered by large language models (LLMs) and visual question-answering (VQA) models to evaluate semantic consistency between prompts and generated images. By integrating multimodal in-context learning and chain of thought reasoning, our method dynamically refines prompts through iterative optimization. This process ensures that the generated images better capture user intent of, resulting in higher fidelity and relevance. Extensive experiments demonstrate that TextMatch significantly improves text-image consistency across multiple benchmarks, establishing a reliable framework for advancing the capabilities of text-to-image generative models. Our code is available at https://anonymous.4open.science/r/TextMatch-F55C/.
- Abstract(参考訳): テキストと画像の生成モデルは、テキストから画像を作成するのに優れているが、出力とプロンプト間の整合性と一貫性を確保するのに苦労する。
本稿では,テキスト・ツー・イメージ(T2I)生成と編集において,マルチモーダル最適化を利用して画像・テキストの相違に対処する新しいフレームワークであるTextMatchを紹介する。
TextMatchは、大きな言語モデル(LLM)と視覚質問回答モデル(VQA)を使用して、プロンプトと生成された画像間のセマンティック一貫性を評価する。
マルチモーダルなインコンテキスト学習と思考推論の連鎖を統合することにより,本手法は反復最適化によりプロンプトを動的に洗練する。
このプロセスにより、生成された画像がユーザの意図をよりよく捉え、忠実度と関連性が向上する。
大規模な実験により、TextMatchは複数のベンチマークでテキスト画像の一貫性を大幅に改善し、テキストから画像への生成モデルの能力を向上するための信頼性の高いフレームワークを確立した。
私たちのコードはhttps://anonymous.4open.science/r/TextMatch-F55C/で利用可能です。
関連論文リスト
- Instruction-augmented Multimodal Alignment for Image-Text and Element Matching [8.470864568439968]
本稿では、画像テキストと要素マッチング(iMatch)のためのインストラクション強化マルチモーダルアライメントと呼ばれる改善された評価手法を提案する。
iMatchは、微調整された多モーダルな言語モデルにより、画像テキストのセマンティックアライメントを評価する。
実験の結果,iMatch法は既存の手法をはるかに上回り,その有効性と実用性を確認した。
論文 参考訳(メタデータ) (2025-04-16T12:21:49Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。
提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。
本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文 参考訳(メタデータ) (2025-02-27T15:08:39Z) - One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Do DALL-E and Flamingo Understand Each Other? [36.4732744974398]
本研究では,Flamingoが与えられた画像の記述を生成し,DALL-Eがこの記述を入力として新しい画像を合成する再構成タスクを提案する。
画像の最適記述は、生成した画像が元の画像と似たものになることを示す。
本稿では,テキスト・トゥ・イメージと画像・トゥ・テキストモデルを微調整する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-23T10:46:56Z) - TextMatcher: Cross-Attentional Neural Network to Compare Image and Text [0.0]
この問題に特化して設計された最初の機械学習モデルを考案する。
一般的なIAMデータセット上で,TextMatcherの実証性能を広範囲に評価した。
銀行のキーの自動処理に関する現実的なアプリケーションシナリオとして,TextMatcherを紹介した。
論文 参考訳(メタデータ) (2022-05-11T14:01:12Z) - Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer [8.069590683507997]
マルチモーダル画像テキスト表現のためのベクトル量子化手法MXQ-VAEを提案する。
MXQ-VAEはペア画像とテキストを入力として受け入れ、共同量子化表現空間を学習する。
自己回帰生成モデルを用いて、共同画像-テキスト表現をモデル化し、無条件画像-テキストペア生成を行う。
論文 参考訳(メタデータ) (2022-04-15T16:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。