Fugu-MT 論文翻訳(概要): IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification

論文の概要: IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification

arxiv url: http://arxiv.org/abs/2503.10324v1
Date: Thu, 13 Mar 2025 13:00:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.672378
Title: IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification
Title（参考訳）: IDEA:マルチモーダルオブジェクト再同定のための協調的変形可能なアグリゲーション付き逆テキスト
Authors: Yuhao Wang, Yongfeng Lv, Pingping Zhang, Huchuan Lu,
Abstract要約: 本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
参考スコア（独自算出の注目度）: 60.38841251693781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal object Re-IDentification (ReID) aims to retrieve specific objects by utilizing complementary information from various modalities. However, existing methods focus on fusing heterogeneous visual features, neglecting the potential benefits of text-based semantic information. To address this issue, we first construct three text-enhanced multi-modal object ReID benchmarks. To be specific, we propose a standardized multi-modal caption generation pipeline for structured and concise text annotations with Multi-modal Large Language Models (MLLMs). Besides, current methods often directly aggregate multi-modal information without selecting representative local features, leading to redundancy and high complexity. To address the above issues, we introduce IDEA, a novel feature learning framework comprising the Inverted Multi-modal Feature Extractor (IMFE) and Cooperative Deformable Aggregation (CDA). The IMFE utilizes Modal Prefixes and an InverseNet to integrate multi-modal information with semantic guidance from inverted text. The CDA adaptively generates sampling positions, enabling the model to focus on the interplay between global features and discriminative local features. With the constructed benchmarks and the proposed modules, our framework can generate more robust multi-modal features under complex scenarios. Extensive experiments on three multi-modal object ReID benchmarks demonstrate the effectiveness of our proposed method.
Abstract（参考訳）: ReID (Multi-modal object Re-IDentification) は、様々なモダリティから補完的な情報を活用することで、特定のオブジェクトを検索することを目的としている。しかし、既存の手法では、テキストベースの意味情報の潜在的な利点を無視して、異種視覚的特徴の融合に重点を置いている。この問題に対処するため、まず3つのテキスト強化マルチモーダルオブジェクトReIDベンチマークを構築した。具体的には,マルチモーダル大言語モデル(MLLM)を用いた構造化および簡潔なテキストアノテーションのための標準化されたマルチモーダルキャプション生成パイプラインを提案する。さらに、現在の手法は、代表的なローカル特徴を選択せずに直接マルチモーダル情報を集約することが多く、冗長性と高い複雑さをもたらす。上記の課題に対処するために,逆多モード特徴抽出器 (IMFE) と協調変形性凝集器 (CDA) を組み合わせた新しい特徴学習フレームワーク IDEA を紹介する。 IMFEは Modal Prefixes と InverseNet を使用して、多モード情報と逆テキストからのセマンティックガイダンスを統合する。 CDAはサンプリング位置を適応的に生成し、大域的特徴と識別的局所特徴との相互作用に焦点を当てる。構築されたベンチマークと提案したモジュールにより、我々のフレームワークは複雑なシナリオ下でより堅牢なマルチモーダル機能を生成することができる。 3つのマルチモーダルオブジェクトReIDベンチマークの大規模な実験により,提案手法の有効性が示された。

関連論文リスト

NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-ID [21.162847644106435]
属性信頼度に基づく信頼性の高いマルチモーダルキャプション生成手法を提案する。また,マルチモーダルオブジェクト再識別のためのテキスト変調による多粒度エキスパート混在型 ReID フレームワーク NEXT を提案する。
論文参考訳（メタデータ） (2025-05-26T13:52:28Z)
Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:42:22Z)
A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文参考訳（メタデータ） (2025-03-25T09:09:30Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。 M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD) メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文参考訳（メタデータ） (2025-02-23T06:59:22Z)
MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文参考訳（メタデータ） (2024-12-14T06:33:53Z)
CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。マルチモーダルなQ&Aデータセットとパブリックセーフティベンチマークによる評価は、CUE-Mが精度、知識統合、安全性のベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2024-11-19T07:16:48Z)
Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。 MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文参考訳（メタデータ） (2024-03-24T15:10:22Z)
Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文参考訳（メタデータ） (2024-03-15T12:44:35Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。