論文の概要: Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification
- arxiv url: http://arxiv.org/abs/2403.10254v1
- Date: Fri, 15 Mar 2024 12:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:11:11.133338
- Title: Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification
- Title(参考訳): マジックトークン:マルチモーダルオブジェクト再識別のための多目的トークンの選択
- Authors: Pingping Zhang, Yuhao Wang, Yang Liu, Zhengzheng Tu, Huchuan Lu,
- Abstract要約: マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
- 参考スコア(独自算出の注目度): 64.36210786350568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-modal object re-identification (ReID) faces great challenges in maintaining robustness within complex visual scenarios. In contrast, multi-modal object ReID utilizes complementary information from diverse modalities, showing great potentials for practical applications. However, previous methods may be easily affected by irrelevant backgrounds and usually ignore the modality gaps. To address above issues, we propose a novel learning framework named \textbf{EDITOR} to select diverse tokens from vision Transformers for multi-modal object ReID. We begin with a shared vision Transformer to extract tokenized features from different input modalities. Then, we introduce a Spatial-Frequency Token Selection (SFTS) module to adaptively select object-centric tokens with both spatial and frequency information. Afterwards, we employ a Hierarchical Masked Aggregation (HMA) module to facilitate feature interactions within and across modalities. Finally, to further reduce the effect of backgrounds, we propose a Background Consistency Constraint (BCC) and an Object-Centric Feature Refinement (OCFR). They are formulated as two new loss functions, which improve the feature discrimination with background suppression. As a result, our framework can generate more discriminative features for multi-modal object ReID. Extensive experiments on three multi-modal ReID benchmarks verify the effectiveness of our methods. The code is available at https://github.com/924973292/EDITOR.
- Abstract(参考訳): 単一モードオブジェクト再識別(ReID)は、複雑な視覚シナリオ内で堅牢性を維持する上で大きな課題に直面します。
対照的に、マルチモーダルオブジェクトReIDは様々なモーダルから補完的な情報を利用しており、実用的な応用の可能性を示している。
しかし、従来の手法は無関係な背景の影響を受けやすく、通常モダリティギャップを無視する。
上記の課題に対処するため,マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための新しい学習フレームワーク「textbf{EDITOR}」を提案する。
我々は、異なる入力モードからトークン化された特徴を抽出する共有視覚変換器から始める。
次に,空間周波数トークン選択(SFTS)モジュールを導入し,空間情報と周波数情報の両方でオブジェクト中心トークンを適応的に選択する。
その後,階層型マスケアグリゲーション (HMA) モジュールを用いて,モダリティ間の特徴的相互作用を促進する。
最後に,背景制約 (BCC) とオブジェクト指向特徴再構成 (OCFR) を提案する。
それらは2つの新しい損失関数として定式化され、背景抑圧による特徴識別を改善する。
その結果、我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な特徴を生成できる。
3つのマルチモーダルReIDベンチマークの大規模な実験により,本手法の有効性が検証された。
コードはhttps://github.com/924973292/EDITORで公開されている。
関連論文リスト
- Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation [26.737971605928358]
我々はMOTORというIDのないマルチモーダルトークン表現方式を提案する。
まず、各項目のマルチモーダル特徴を離散トークンIDに識別するために、製品量子化を用いる。
次に、これらのトークンIDに対応するトークン埋め込みを暗黙のアイテム機能として解釈する。
結果として得られた表現は、元のID埋め込みを置き換え、元のマルチモーダルレコメンデータをIDフリーシステムに変換することができる。
論文 参考訳(メタデータ) (2024-10-25T03:06:10Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - TOP-ReID: Multi-spectral Object Re-Identification with Token Permutation [64.65950381870742]
マルチスペクトルオブジェクトReID, Dubbled TOP-ReIDのための循環トークン置換フレームワークを提案する。
また,巡回多スペクトル特徴アグリゲーションのためのToken Permutation Module (TPM)を提案する。
提案するフレームワークは,ロバストなオブジェクトReIDに対して,より識別性の高いマルチスペクトル特徴を生成できる。
論文 参考訳(メタデータ) (2023-12-15T08:54:15Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。