論文の概要: Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond
- arxiv url: http://arxiv.org/abs/2402.10805v1
- Date: Fri, 16 Feb 2024 16:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:18:33.675207
- Title: Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond
- Title(参考訳): 生成的クロスモーダル検索:検索とそれを超えるマルチモーダル言語モデルにおける画像の記憶
- Authors: Yongqi Li, Wenjie Wang, Leigang Qu, Liqiang Nie, Wenjie Li, Tat-Seng
Chua
- Abstract要約: 画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
- 参考スコア(独自算出の注目度): 99.73306923465424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancements in generative language models have demonstrated their
ability to memorize knowledge from documents and recall knowledge to respond to
user queries effectively. Building upon this capability, we propose to enable
multimodal large language models (MLLMs) to memorize and recall images within
their parameters. Given a user query for visual content, the MLLM is
anticipated to "recall" the relevant image from its parameters as the response.
Achieving this target presents notable challenges, including inbuilt visual
memory and visual recall schemes within MLLMs. To address these challenges, we
introduce a generative cross-modal retrieval framework, which assigns unique
identifier strings to represent images and involves two training steps:
learning to memorize and learning to retrieve. The first step focuses on
training the MLLM to memorize the association between images and their
respective identifiers. The latter step teaches the MLLM to generate the
corresponding identifier of the target image, given the textual query input. By
memorizing images in MLLMs, we introduce a new paradigm to cross-modal
retrieval, distinct from previous discriminative approaches. The experiments
demonstrate that the generative paradigm performs effectively and efficiently
even with large-scale image candidate sets.
- Abstract(参考訳): 最近の生成言語モデルの進歩は、文書からの知識を記憶し、ユーザのクエリに効果的に対応する知識を思い出す能力を示している。
この機能に基づいて,マルチモーダル大規模言語モデル(mllms)がパラメータ内のイメージを記憶し,リコールできるようにする。
視覚的コンテンツに対するユーザクエリが与えられた場合、MLLMはそのパラメータから関連するイメージを応答として“リコール”することが期待される。
この目標を達成するには、組み込みビジュアルメモリやMLLM内のビジュアルリコールスキームなど、注目すべき課題がある。
これらの課題に対処するために,画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを導入する。
最初のステップは、画像とそれぞれの識別子の関連を記憶するためのMLLMのトレーニングに焦点を当てる。
後者のステップでは、テキストクエリ入力からターゲット画像の対応する識別子を生成するようにMLLMに教える。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
実験により,生成パラダイムが大規模画像候補セットにおいても効果的かつ効率的に動作することを示す。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - D\'ej\`a Vu Memorization in Vision-Language Models [44.40740575667872]
視覚言語モデル(VLM)における記憶量測定のための新しい手法を提案する。
モデルでは、相関や画像キャプションから推測できる範囲を超えて、トレーニング画像中の個々のオブジェクトに関する情報が実際に保持されていることを示す。
サンプルおよび集団レベルでのd'eja vuメモリ化を評価し,最大5000万枚の画像キャプチャーペアで訓練したOpenCLIPにとって重要であることを示す。
論文 参考訳(メタデータ) (2024-02-03T09:55:35Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - LMEye: An Interactive Perception Network for Large Language Models [43.160353427015025]
LMEyeは、プレイ・アンド・プラグの対話型知覚ネットワークを備えた人間のような眼である。
大規模言語モデルと外部視覚情報との動的相互作用を可能にする。
様々なマルチモーダルタスクにおけるゼロショット性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-05T17:27:21Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。