論文の概要: STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification
- arxiv url: http://arxiv.org/abs/2603.00695v1
- Date: Sat, 28 Feb 2026 15:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.325998
- Title: STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification
- Title(参考訳): STMI:多モードオブジェクト再同定のための多モードハイパーグラフ相互作用を用いた分割誘導型トークン変調
- Authors: Xingguo Xu, Zhanyu Liu, Weixiang Zhou, Yuansheng Gao, Junjie Cao, Yuhao Wang, Jixiang Luo, Dell Zhang,
- Abstract要約: 3つの主要コンポーネントからなる新しいマルチモーダル学習フレームワークSTMIを提案する。
マルチモーダルReIDシナリオにおけるSTMIフレームワークの有効性とロバスト性を実証する。
- 参考スコア(独自算出の注目度): 14.549172375231729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal object Re-Identification (ReID) aims to exploit complementary information from different modalities to retrieve specific objects. However, existing methods often rely on hard token filtering or simple fusion strategies, which can lead to the loss of discriminative cues and increased background interference. To address these challenges, we propose STMI, a novel multi-modal learning framework consisting of three key components: (1) Segmentation-Guided Feature Modulation (SFM) module leverages SAM-generated masks to enhance foreground representations and suppress background noise through learnable attention modulation; (2) Semantic Token Reallocation (STR) module employs learnable query tokens and an adaptive reallocation mechanism to extract compact and informative representations without discarding any tokens; (3) Cross-Modal Hypergraph Interaction (CHI) module constructs a unified hypergraph across modalities to capture high-order semantic relationships. Extensive experiments on public benchmarks (i.e., RGBNT201, RGBNT100, and MSVR310) demonstrate the effectiveness and robustness of our proposed STMI framework in multi-modal ReID scenarios.
- Abstract(参考訳): ReID (Multi-modal object Re-Identification) は、異なるモダリティからの補完情報を利用して特定のオブジェクトを検索することを目的としている。
しかし、既存の手法はしばしばハードトークンフィルタリングや単純な融合戦略に依存しており、差別的手がかりの喪失と背景干渉の増加につながる可能性がある。
これらの課題に対処するため,Segmentation-Guided Feature Modulation (SFM)モジュールはSAM生成マスクを利用して前景表現を強化し,学習可能なアテンション変調により背景雑音を抑制する。(2)Semantic Token Reallocation (STR)モジュールは,学習可能なクエリトークンと適応型再配置機構を用いて,トークンを破棄することなくコンパクトかつ情報的な表現を抽出する。(3)クロスモーダルハイパーグラフインタラクション (CHI)モジュールは,高階意味関係を捉えるために,モダリティをまたいだ統一ハイパーグラフを構築する。
公開ベンチマーク(RGBNT201、RGBNT100、MSVR310)における大規模な実験は、マルチモーダルReIDシナリオにおける提案したSTMIフレームワークの有効性と堅牢性を示している。
関連論文リスト
- Distinguishing Visually Similar Actions: Prompt-Guided Semantic Prototype Modulation for Few-Shot Action Recognition [18.527513690285364]
少数のアクション認識は、限定されたラベル付きサンプルからモデルが新しいアクションカテゴリを素早く学習できるようにすることを目的としている。
本稿では、時間的モデリングと視覚的類似性の課題に対処する3つのコンポーネントを含むCLIP-SPMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-22T05:13:58Z) - RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD)
メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。
提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-23T06:59:22Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。