論文の概要: Learning Language-Driven Sequence-Level Modal-Invariant Representations for Video-Based Visible-Infrared Person Re-Identification
- arxiv url: http://arxiv.org/abs/2601.12062v1
- Date: Sat, 17 Jan 2026 14:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.443516
- Title: Learning Language-Driven Sequence-Level Modal-Invariant Representations for Video-Based Visible-Infrared Person Re-Identification
- Title(参考訳): 映像に基づく可視赤外人物再同定のための言語駆動型逐次モーダル不変表現の学習
- Authors: Xiaomei Yang, Xizhan Gao, Antai Liu, Kang Wei, Fa Zhu, Guang Feng, Xiaofeng Qu, Sijie Niu,
- Abstract要約: 言語駆動型シーケンスレベルモード不変表現学習(LSMRL)を提案する。
これには、時空間特徴学習(STFL)モジュール、意味拡散(SD)モジュール、相互モーダル相互作用(CMI)モジュールが含まれる。
大規模なVVI-ReIDデータセットの実験は、ALOTA法よりもLSMRLの方が優れていることを示した。
- 参考スコア(独自算出の注目度): 18.211859256490822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The core of video-based visible-infrared person re-identification (VVI-ReID) lies in learning sequence-level modal-invariant representations across different modalities. Recent research tends to use modality-shared language prompts generated by CLIP to guide the learning of modal-invariant representations. Despite achieving optimal performance, such methods still face limitations in efficient spatial-temporal modeling, sufficient cross-modal interaction, and explicit modality-level loss guidance. To address these issues, we propose the language-driven sequence-level modal-invariant representation learning (LSMRL) method, which includes spatial-temporal feature learning (STFL) module, semantic diffusion (SD) module and cross-modal interaction (CMI) module. To enable parameter- and computation-efficient spatial-temporal modeling, the STFL module is built upon CLIP with minimal modifications. To achieve sufficient cross-modal interaction and enhance the learning of modal-invariant features, the SD module is proposed to diffuse modality-shared language prompts into visible and infrared features to establish preliminary modal consistency. The CMI module is further developed to leverage bidirectional cross-modal self-attention to eliminate residual modality gaps and refine modal-invariant representations. To explicitly enhance the learning of modal-invariant representations, two modality-level losses are introduced to improve the features' discriminative ability and their generalization to unseen categories. Extensive experiments on large-scale VVI-ReID datasets demonstrate the superiority of LSMRL over AOTA methods.
- Abstract(参考訳): ビデオベースの可視赤外人物再識別(VVI-ReID)のコアは、異なるモダリティにわたるシーケンスレベルのモード不変表現の学習にある。
近年の研究では、CLIPが生成したモダリティ共有言語プロンプトを用いて、モダリティ不変表現の学習をガイドする傾向にある。
最適な性能を達成するにも拘わらず、これらの手法は効率的な時空間モデリング、十分なクロスモーダル相互作用、明示的なモダリティレベルの損失ガイダンスにおいて制限に直面している。
これらの課題に対処するため、時空間特徴学習(STFL)モジュール、意味拡散(SD)モジュール、相互モーダル相互作用(CMI)モジュールを含む言語駆動型シーケンスレベルモード不変表現学習(LSMRL)手法を提案する。
パラメータと計算効率の良い時空間モデリングを可能にするため、STFLモジュールは最小限の修正でCLIP上に構築されている。
モーダル不変な特徴の学習を実現するために,SDモジュールは,モーダル共有言語を視覚的・赤外線的特徴に拡散させ,予備的なモーダル整合性を確立する。
さらに、CMIモジュールは双方向の自己アテンションを利用して、余剰なモダリティギャップを排除し、モーダル不変表現を洗練させるように開発されている。
モーダル不変表現の学習を明示的に促進するために、特徴の識別能力の向上と、その未確認カテゴリへの一般化のために、2つのモダリティレベルの損失を導入している。
大規模VVI-ReIDデータセットの大規模な実験は、ALOTA法よりもLSMRLの方が優れていることを示した。
関連論文リスト
- Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。
ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文 参考訳(メタデータ) (2025-12-03T12:43:16Z) - Leveraging Shared Prototypes for a Multimodal Pulse Motion Foundation Model [4.895784700544358]
ProtoMMは、共通の埋め込み空間に不均一なモダリティを固定するために、共有プロトタイプ辞書を導入する新しいフレームワークである。
明示的なネガティブサンプリングではなく,共有プロトタイプを囲む表現をクラスタリングすることで,モダリティ間の相補的な情報を捕捉し,生理的信号に対するコヒーレントな"共通言語"を提供する。
論文 参考訳(メタデータ) (2025-10-10T18:13:38Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Extended Cross-Modality United Learning for Unsupervised Visible-Infrared Person Re-identification [34.93081601924748]
教師なし学習は、ラベルなしのモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。
既存の手法では、クロスモダリティクラスタリングが欠如し、クラスタレベルの関連性を過度に追求する。
拡張Modality-Camera Clustering (EMCC) と Two-Step Memory Updating Strategy (TSMem) を併用した拡張Modality-Camera Clustering (EMCC) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T09:30:26Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。