Fugu-MT 論文翻訳(概要): Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond

論文の概要: Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond

arxiv url: http://arxiv.org/abs/2402.10805v1
Date: Fri, 16 Feb 2024 16:31:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 15:18:33.675207
Title: Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond
Title（参考訳）: 生成的クロスモーダル検索:検索とそれを超えるマルチモーダル言語モデルにおける画像の記憶
Authors: Yongqi Li, Wenjie Wang, Leigang Qu, Liqiang Nie, Wenjie Li, Tat-Seng Chua
Abstract要約: 画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。 MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
参考スコア（独自算出の注目度）: 99.73306923465424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent advancements in generative language models have demonstrated their ability to memorize knowledge from documents and recall knowledge to respond to user queries effectively. Building upon this capability, we propose to enable multimodal large language models (MLLMs) to memorize and recall images within their parameters. Given a user query for visual content, the MLLM is anticipated to "recall" the relevant image from its parameters as the response. Achieving this target presents notable challenges, including inbuilt visual memory and visual recall schemes within MLLMs. To address these challenges, we introduce a generative cross-modal retrieval framework, which assigns unique identifier strings to represent images and involves two training steps: learning to memorize and learning to retrieve. The first step focuses on training the MLLM to memorize the association between images and their respective identifiers. The latter step teaches the MLLM to generate the corresponding identifier of the target image, given the textual query input. By memorizing images in MLLMs, we introduce a new paradigm to cross-modal retrieval, distinct from previous discriminative approaches. The experiments demonstrate that the generative paradigm performs effectively and efficiently even with large-scale image candidate sets.
Abstract（参考訳）: 最近の生成言語モデルの進歩は、文書からの知識を記憶し、ユーザのクエリに効果的に対応する知識を思い出す能力を示している。この機能に基づいて,マルチモーダル大規模言語モデル(mllms)がパラメータ内のイメージを記憶し,リコールできるようにする。視覚的コンテンツに対するユーザクエリが与えられた場合、MLLMはそのパラメータから関連するイメージを応答として“リコール”することが期待される。この目標を達成するには、組み込みビジュアルメモリやMLLM内のビジュアルリコールスキームなど、注目すべき課題がある。これらの課題に対処するために,画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを導入する。最初のステップは、画像とそれぞれの識別子の関連を記憶するためのMLLMのトレーニングに焦点を当てる。後者のステップでは、テキストクエリ入力からターゲット画像の対応する識別子を生成するようにMLLMに教える。 MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。実験により,生成パラダイムが大規模画像候補セットにおいても効果的かつ効率的に動作することを示す。

関連論文リスト

MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
When Large Vision-Language Models Meet Person Re-Identification [44.604485649167216]
本稿では,LVLMの強度を利用してReIDを促進する新しいフレームワークであるLVLM-ReIDを提案する。我々のフレームワークは,LVLMのセマンティック理解と生成能力をエンドツーエンドのReIDトレーニングに統合する。画像テキストアノテーションを追加せずに複数のベンチマークで競合する結果を得る。
論文参考訳（メタデータ） (2024-11-27T07:45:25Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
Déjà Vu Memorization in Vision-Language Models [39.51189095703773]
視覚言語モデル(VLM)における記憶量測定のための新しい手法を提案する。モデルでは、相関や画像キャプションから推測できる範囲を超えて、トレーニング画像中の個々のオブジェクトに関する情報が実際に保持されていることを示す。サンプルおよび集団レベルでのd'eja vuメモリ化を評価し,最大5000万枚の画像キャプチャーペアで訓練したOpenCLIPにとって重要であることを示す。
論文参考訳（メタデータ） (2024-02-03T09:55:35Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。