Fugu-MT 論文翻訳(概要): Unified Text-to-Image Generation and Retrieval

論文の概要: Unified Text-to-Image Generation and Retrieval

arxiv url: http://arxiv.org/abs/2406.05814v1
Date: Sun, 9 Jun 2024 15:00:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 17:57:33.311810
Title: Unified Text-to-Image Generation and Retrieval
Title（参考訳）: 統一テキスト・ツー・イメージ生成と検索
Authors: Leigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua,
Abstract要約: MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
参考スコア（独自算出の注目度）: 96.72318842152148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How humans can efficiently and effectively acquire images has always been a perennial question. A typical solution is text-to-image retrieval from an existing database given the text query; however, the limited database typically lacks creativity. By contrast, recent breakthroughs in text-to-image generation have made it possible to produce fancy and diverse visual content, but it faces challenges in synthesizing knowledge-intensive images. In this work, we rethink the relationship between text-to-image generation and retrieval and propose a unified framework in the context of Multimodal Large Language Models (MLLMs). Specifically, we first explore the intrinsic discriminative abilities of MLLMs and introduce a generative retrieval method to perform retrieval in a training-free manner. Subsequently, we unify generation and retrieval in an autoregressive generation way and propose an autonomous decision module to choose the best-matched one between generated and retrieved images as the response to the text query. Additionally, we construct a benchmark called TIGeR-Bench, including creative and knowledge-intensive domains, to standardize the evaluation of unified text-to-image generation and retrieval. Extensive experimental results on TIGeR-Bench and two retrieval benchmarks, i.e., Flickr30K and MS-COCO, demonstrate the superiority and effectiveness of our proposed method.
Abstract（参考訳）: 人間が画像の効率よく、効果的に取得する方法は、常に長年にわたる問題だった。典型的な解決策は、テキストクエリが与えられた場合の既存のデータベースからのテキスト・ツー・イメージの検索であるが、制限されたデータベースは創造性に欠ける。対照的に、最近のテキスト・画像生成のブレークスルーにより、派手で多様な視覚コンテンツが作成できるようになったが、知識集約的な画像の合成の課題に直面している。本研究では,テキスト・画像生成と検索の関係を再考し,MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。具体的には,MLLMの本質的な識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。その後、自動回帰生成方式で生成と検索を統一し、テキストクエリに対する応答として、生成した画像と検索した画像の間で最適なマッチングを選択できる自律的決定モジュールを提案する。さらに、創造的で知識集約的なドメインを含むTIGeR-Benchと呼ばれるベンチマークを構築し、統一されたテキスト・画像生成と検索の評価を標準化する。 TIGeR-Bench と Flickr30K と MS-COCO の総合的な実験結果から,提案手法の優位性と有効性を示した。

関連論文リスト

When Vision Meets Texts in Listwise Reranking [1.2691047660244335]
Rank-Nexusは、画像とテキストの両方を組み込んだ検索リスト上で、リストワイズで定性的な再ランクを行うマルチモーダルな画像テキスト文書再ランカである。私たちはまず、大量のテキストを再ランク付けしたデータを活用して、知識をテキストブランチに抽出する、という、モダリティを個別にトレーニングします。データが少ない画像に対しては,画像検索ベンチマーク上で,マルチモーダル大言語モデル(MLLM)キャプションから蒸留ペアを構築する。
論文参考訳（メタデータ） (2026-01-28T13:57:14Z)
Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。 IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5～10ポイント向上した。
論文参考訳（メタデータ） (2025-09-08T17:56:23Z)
Cross-modal RAG: Sub-dimensional Retrieval-Augmented Text-to-Image Generation [12.631059980161435]
我々は,クエリとイメージの両方をサブ次元のコンポーネントに分解する新しいフレームワークであるCross-modal RAGを提案する。本稿では,サブ次元スパースレトリバーと高密度レトリバーを組み合わせたハイブリッド検索手法を提案する。 MS-COCO、Flickr30K、WikiArt、CUB、ImageNet-LTの実験では、クロスモーダルRAGは検索と生成の両方において既存のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-28T04:09:49Z)
MINT: Multi-modal Chain of Thought in Unified Generative Models for Enhanced Image Generation [38.517814177255765]
画像生成の強化のために,MINTを導入し,マルチモーダル・シンキング・オブ・シンキング (MCoT) を生かした,革新的統一的生成モデルを提案する。本稿では,MCoT学習パラダイムを提案する。このパラダイムは,画像生成に特化して設計されたマルチモーダル思考,推論,リフレクションに対するステップバイステップアプローチである。 MINTは、テキスト・トゥ・イメージ(T2I)と画像・トゥ・テキスト(I2T)タスクの複数のベンチマークで優れたパフォーマンスを示すことが検証されている。
論文参考訳（メタデータ） (2025-03-03T08:36:16Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [38.30565103892611]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文参考訳（メタデータ） (2024-10-23T12:12:56Z)
Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models [2.3301643766310374]
視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで,画像の特徴を抽出し,テキストデータに変換する。従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能が優れていることを示す。また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。
論文参考訳（メタデータ） (2024-08-29T06:54:03Z)
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文参考訳（メタデータ） (2024-04-29T14:46:35Z)
OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation [151.57313182844936]
本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
論文参考訳（メタデータ） (2023-10-11T17:58:33Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文参考訳（メタデータ） (2023-05-22T12:13:08Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR) 我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文参考訳（メタデータ） (2022-04-24T08:10:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。