論文の概要: Signal: Selective Interaction and Global-local Alignment for Multi-Modal Object Re-Identification
- arxiv url: http://arxiv.org/abs/2511.17965v1
- Date: Sat, 22 Nov 2025 07:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.548929
- Title: Signal: Selective Interaction and Global-local Alignment for Multi-Modal Object Re-Identification
- Title(参考訳): 信号:多モード物体再同定のための選択的相互作用と大域的アライメント
- Authors: Yangyang Liu, Yuhao Wang, Pingping Zhang,
- Abstract要約: ReID(Multi-modal object Re-IDentification)は、補完的なマルチモーダル画像情報を利用して特定のオブジェクトを検索する。
マルチモーダルオブジェクトReIDのためのSignalと呼ばれる,新たな選択的相互作用とグローバルなアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.774470057037526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal object Re-IDentification (ReID) is devoted to retrieving specific objects through the exploitation of complementary multi-modal image information. Existing methods mainly concentrate on the fusion of multi-modal features, yet neglecting the background interference. Besides, current multi-modal fusion methods often focus on aligning modality pairs but suffer from multi-modal consistency alignment. To address these issues, we propose a novel selective interaction and global-local alignment framework called Signal for multi-modal object ReID. Specifically, we first propose a Selective Interaction Module (SIM) to select important patch tokens with intra-modal and inter-modal information. These important patch tokens engage in the interaction with class tokens, thereby yielding more discriminative features. Then, we propose a Global Alignment Module (GAM) to simultaneously align multi-modal features by minimizing the volume of 3D polyhedra in the gramian space. Meanwhile, we propose a Local Alignment Module (LAM) to align local features in a shift-aware manner. With these modules, our proposed framework could extract more discriminative features for object ReID. Extensive experiments on three multi-modal object ReID benchmarks (i.e., RGBNT201, RGBNT100, MSVR310) validate the effectiveness of our method. The source code is available at https://github.com/010129/Signal.
- Abstract(参考訳): ReID(Multi-modal object Re-IDentification)は、補完的なマルチモーダル画像情報を利用して特定のオブジェクトを検索する。
既存の手法は主にマルチモーダルな特徴の融合に集中するが、背景干渉は無視する。
さらに、現在のマルチモーダル融合法は、しばしばモダリティ対の整合性に焦点をあてるが、マルチモーダル整合性に悩まされる。
これらの問題に対処するため,我々はSignal for multi-modal object ReIDという,新たな選択的相互作用とグローバルなアライメントフレームワークを提案する。
具体的には、まず、モダル内およびモダル間情報を含む重要なパッチトークンを選択するためのSelective Interaction Module (SIM)を提案する。
これらの重要なパッチトークンはクラストークンとの相互作用に関与し、より差別的な特徴をもたらす。
そこで我々は,Global Alignment Module (GAM) を提案し,グラム空間における3次元ポリヘドラの体積を最小化し,マルチモーダルな特徴を同時に整列させる。
一方,局所的な特徴をシフトアウェアで整列する局所アライメントモジュール (LAM) を提案する。
これらのモジュールにより、提案するフレームワークはオブジェクトReIDのより差別的な特徴を抽出できる。
マルチモーダルオブジェクトReIDベンチマーク(RGBNT201, RGBNT100, MSVR310)の大規模な実験により, 本手法の有効性が検証された。
ソースコードはhttps://github.com/010129/Signal.comで入手できる。
関連論文リスト
- A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - DeMo: Decoupled Feature-Based Mixture of Experts for Multi-Modal Object Re-Identification [25.781336502845395]
マルチモーダルオブジェクトReIDentificationは、複数のモーダルから補完情報を組み合わせることで、特定のオブジェクトを検索することを目的としている。
本稿では,マルチモーダルオブジェクトReIDのためのDeMoと呼ばれる新しい特徴学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-14T02:36:56Z) - Multi-level Matching Network for Multimodal Entity Linking [28.069585532270985]
MEL(Multimodal entity Linking)は、マルチモーダルなコンテキスト内の曖昧な言及を、マルチモーダルな知識ベース内の対応するエンティティにリンクすることを目的としている。
マルチモーダルエンティティリンク(M3EL)のためのマルチレベルマッチングネットワークを提案する。
M3ELは、3つの異なるモジュールで構成されている: (i) マルチモーダルエンコーダでモーダル固有の表現を抽出するマルチモーダル特徴抽出モジュール、 (ii) マッチング粒度の2レベルを含むモーダル内マッチングネットワークモジュール、 (iii) 双方向戦略、テキスト・ツー・ビジュアルおよびビジュアル・トゥ・テキストマッチングを適用するクロスモーダルマッチングネットワークモジュール。
論文 参考訳(メタデータ) (2024-12-11T10:26:17Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。