論文の概要: IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification
- arxiv url: http://arxiv.org/abs/2503.10324v1
- Date: Thu, 13 Mar 2025 13:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:24.197620
- Title: IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification
- Title(参考訳): IDEA:マルチモーダルオブジェクト再同定のための協調的変形可能なアグリゲーション付き逆テキスト
- Authors: Yuhao Wang, Yongfeng Lv, Pingping Zhang, Huchuan Lu,
- Abstract要約: 本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 60.38841251693781
- License:
- Abstract: Multi-modal object Re-IDentification (ReID) aims to retrieve specific objects by utilizing complementary information from various modalities. However, existing methods focus on fusing heterogeneous visual features, neglecting the potential benefits of text-based semantic information. To address this issue, we first construct three text-enhanced multi-modal object ReID benchmarks. To be specific, we propose a standardized multi-modal caption generation pipeline for structured and concise text annotations with Multi-modal Large Language Models (MLLMs). Besides, current methods often directly aggregate multi-modal information without selecting representative local features, leading to redundancy and high complexity. To address the above issues, we introduce IDEA, a novel feature learning framework comprising the Inverted Multi-modal Feature Extractor (IMFE) and Cooperative Deformable Aggregation (CDA). The IMFE utilizes Modal Prefixes and an InverseNet to integrate multi-modal information with semantic guidance from inverted text. The CDA adaptively generates sampling positions, enabling the model to focus on the interplay between global features and discriminative local features. With the constructed benchmarks and the proposed modules, our framework can generate more robust multi-modal features under complex scenarios. Extensive experiments on three multi-modal object ReID benchmarks demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): ReID (Multi-modal object Re-IDentification) は、様々なモダリティから補完的な情報を活用することで、特定のオブジェクトを検索することを目的としている。
しかし、既存の手法では、テキストベースの意味情報の潜在的な利点を無視して、異種視覚的特徴の融合に重点を置いている。
この問題に対処するため、まず3つのテキスト強化マルチモーダルオブジェクトReIDベンチマークを構築した。
具体的には,マルチモーダル大言語モデル(MLLM)を用いた構造化および簡潔なテキストアノテーションのための標準化されたマルチモーダルキャプション生成パイプラインを提案する。
さらに、現在の手法は、代表的なローカル特徴を選択せずに直接マルチモーダル情報を集約することが多く、冗長性と高い複雑さをもたらす。
上記の課題に対処するために,逆多モード特徴抽出器 (IMFE) と協調変形性凝集器 (CDA) を組み合わせた新しい特徴学習フレームワーク IDEA を紹介する。
IMFEは Modal Prefixes と InverseNet を使用して、多モード情報と逆テキストからのセマンティックガイダンスを統合する。
CDAはサンプリング位置を適応的に生成し、大域的特徴と識別的局所特徴との相互作用に焦点を当てる。
構築されたベンチマークと提案したモジュールにより、我々のフレームワークは複雑なシナリオ下でより堅牢なマルチモーダル機能を生成することができる。
3つのマルチモーダルオブジェクトReIDベンチマークの大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - DeMo: Decoupled Feature-Based Mixture of Experts for Multi-Modal Object Re-Identification [25.781336502845395]
マルチモーダルオブジェクトReIDentificationは、複数のモーダルから補完情報を組み合わせることで、特定のオブジェクトを検索することを目的としている。
本稿では,マルチモーダルオブジェクトReIDのためのDeMoと呼ばれる新しい特徴学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-14T02:36:56Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
マルチモーダルなQ&Aデータセットとパブリックセーフティベンチマークによる評価は、CUE-Mが精度、知識統合、安全性のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。
MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T15:10:22Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。