論文の概要: IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2504.00954v1
- Date: Tue, 01 Apr 2025 16:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:33.754183
- Title: IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval
- Title(参考訳): IDMR:マルチモーダル検索におけるインスタンス駆動の精密視覚対応に向けて
- Authors: Bangwei Liu, Yicheng Bao, Shaohui Lin, Xuhong Wang, Xin Tan, Yingchun Wang, Yuan Xie, Chaochao Lu,
- Abstract要約: インスタンス駆動型マルチモーダル画像検索(IDMR)は、テキスト記述シナリオにマッチしながら、クエリイメージと同じインスタンスを含む画像を取得するモデルを必要とする、新しいタスクである。
この能力をベンチマークするために,実世界の物体追跡と一対一のビデオデータを用いたIDMRベンチを開発した。
我々のMultimodal Large Language Model(MLLM)に基づく検索モデルは、1.2Mサンプルに基づいて訓練され、従来のベンチマークとゼロショットIDMRベンチの両方で最先端のアプローチより優れている。
- 参考スコア(独自算出の注目度): 29.05476868272228
- License:
- Abstract: Multimodal retrieval systems are becoming increasingly vital for cutting-edge AI technologies, such as embodied AI and AI-driven digital content industries. However, current multimodal retrieval tasks lack sufficient complexity and demonstrate limited practical application value. It spires us to design Instance-Driven Multimodal Image Retrieval (IDMR), a novel task that requires models to retrieve images containing the same instance as a query image while matching a text-described scenario. Unlike existing retrieval tasks focused on global image similarity or category-level matching, IDMR demands fine-grained instance-level consistency across diverse contexts. To benchmark this capability, we develop IDMR-bench using real-world object tracking and first-person video data. Addressing the scarcity of training data, we propose a cross-domain synthesis method that creates 557K training samples by cropping objects from standard detection datasets. Our Multimodal Large Language Model (MLLM) based retrieval model, trained on 1.2M samples, outperforms state-of-the-art approaches on both traditional benchmarks and our zero-shot IDMR-bench. Experimental results demonstrate previous models' limitations in instance-aware retrieval and highlight the potential of MLLM for advanced retrieval applications. The whole training dataset, codes and models, with wide ranges of sizes, are available at https://github.com/BwLiu01/IDMR.
- Abstract(参考訳): マルチモーダル検索システムは、AIやAI駆動のデジタルコンテンツ産業といった最先端のAI技術にとって、ますます重要になっている。
しかし、現在のマルチモーダル検索タスクには十分な複雑さがなく、実用的価値が限られている。
インスタンス駆動型マルチモーダル画像検索(IDMR)は,クエリイメージと同じインスタンスを含むイメージを,テキスト記述のシナリオにマッチさせながら検索する,新たなタスクである。
グローバルな画像の類似性やカテゴリレベルのマッチングに焦点を当てた既存の検索タスクとは異なり、IDMRはさまざまなコンテキストにわたる詳細なインスタンスレベルの一貫性を必要とする。
この能力をベンチマークするために,実世界の物体追跡と一対一のビデオデータを用いたIDMRベンチを開発した。
トレーニングデータの不足に対処し,標準検出データセットからオブジェクトを抽出して557Kのトレーニングサンプルを生成するクロスドメイン合成手法を提案する。
我々のMultimodal Large Language Model(MLLM)に基づく検索モデルは、1.2Mサンプルに基づいて訓練され、従来のベンチマークとゼロショットIDMRベンチの両方で最先端のアプローチより優れている。
実験の結果,インスタンス認識検索における先行モデルの限界が示され,高度な検索アプリケーションに対するMLLMの可能性が強調された。
トレーニングデータセット、コード、モデルは、幅広いサイズで、https://github.com/BwLiu01/IDMRで利用可能である。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。
Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。
本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文 参考訳(メタデータ) (2024-10-29T11:03:31Z) - MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation [25.252173311925027]
マルチモーダル,マルチGSD,マルチシーンリモートセンシング(MMM-RS)データセットと,多様なリモートセンシングシナリオにおけるテキスト・ツー・イメージ生成のためのベンチマークを提案する。
大規模な事前学習型視覚言語モデルを用いて、テキストプロンプトを自動出力し、手作りの修正を行う。
広範囲な手動スクリーニングと修正アノテーションにより、最終的に約2100万のテキストイメージペアからなるMMM-RSデータセットを得る。
論文 参考訳(メタデータ) (2024-10-26T11:19:07Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。