Fugu-MT 論文翻訳(概要): Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification

論文の概要: Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification

arxiv url: http://arxiv.org/abs/2403.10254v1
Date: Fri, 15 Mar 2024 12:44:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 17:11:11.133338
Title: Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification
Title（参考訳）: マジックトークン:マルチモーダルオブジェクト再識別のための多目的トークンの選択
Authors: Pingping Zhang, Yuhao Wang, Yang Liu, Zhengzheng Tu, Huchuan Lu,
Abstract要約: マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
参考スコア（独自算出の注目度）: 64.36210786350568
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Single-modal object re-identification (ReID) faces great challenges in maintaining robustness within complex visual scenarios. In contrast, multi-modal object ReID utilizes complementary information from diverse modalities, showing great potentials for practical applications. However, previous methods may be easily affected by irrelevant backgrounds and usually ignore the modality gaps. To address above issues, we propose a novel learning framework named \textbf{EDITOR} to select diverse tokens from vision Transformers for multi-modal object ReID. We begin with a shared vision Transformer to extract tokenized features from different input modalities. Then, we introduce a Spatial-Frequency Token Selection (SFTS) module to adaptively select object-centric tokens with both spatial and frequency information. Afterwards, we employ a Hierarchical Masked Aggregation (HMA) module to facilitate feature interactions within and across modalities. Finally, to further reduce the effect of backgrounds, we propose a Background Consistency Constraint (BCC) and an Object-Centric Feature Refinement (OCFR). They are formulated as two new loss functions, which improve the feature discrimination with background suppression. As a result, our framework can generate more discriminative features for multi-modal object ReID. Extensive experiments on three multi-modal ReID benchmarks verify the effectiveness of our methods. The code is available at https://github.com/924973292/EDITOR.
Abstract（参考訳）: 単一モードオブジェクト再識別(ReID)は、複雑な視覚シナリオ内で堅牢性を維持する上で大きな課題に直面します。対照的に、マルチモーダルオブジェクトReIDは様々なモーダルから補完的な情報を利用しており、実用的な応用の可能性を示している。しかし、従来の手法は無関係な背景の影響を受けやすく、通常モダリティギャップを無視する。上記の課題に対処するため,マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための新しい学習フレームワーク「textbf{EDITOR}」を提案する。我々は、異なる入力モードからトークン化された特徴を抽出する共有視覚変換器から始める。次に,空間周波数トークン選択(SFTS)モジュールを導入し,空間情報と周波数情報の両方でオブジェクト中心トークンを適応的に選択する。その後,階層型マスケアグリゲーション (HMA) モジュールを用いて,モダリティ間の特徴的相互作用を促進する。最後に,背景制約 (BCC) とオブジェクト指向特徴再構成 (OCFR) を提案する。それらは2つの新しい損失関数として定式化され、背景抑圧による特徴識別を改善する。その結果、我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な特徴を生成できる。 3つのマルチモーダルReIDベンチマークの大規模な実験により,本手法の有効性が検証された。コードはhttps://github.com/924973292/EDITORで公開されている。

関連論文リスト

IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-13T13:00:31Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文参考訳（メタデータ） (2024-12-14T06:33:53Z)
DeMo: Decoupled Feature-Based Mixture of Experts for Multi-Modal Object Re-Identification [25.781336502845395]
マルチモーダルオブジェクトReIDentificationは、複数のモーダルから補完情報を組み合わせることで、特定のオブジェクトを検索することを目的としている。本稿では,マルチモーダルオブジェクトReIDのためのDeMoと呼ばれる新しい特徴学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-14T02:36:56Z)
Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation [26.737971605928358]
我々はMOTORというIDのないマルチモーダルトークン表現方式を提案する。まず、各項目のマルチモーダル特徴を離散トークンIDに識別するために、製品量子化を用いる。次に、これらのトークンIDに対応するトークン埋め込みを暗黙のアイテム機能として解釈する。結果として得られた表現は、元のID埋め込みを置き換え、元のマルチモーダルレコメンデータをIDフリーシステムに変換することができる。
論文参考訳（メタデータ） (2024-10-25T03:06:10Z)
PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文参考訳（メタデータ） (2024-08-29T16:31:05Z)
Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文参考訳（メタデータ） (2024-07-23T02:23:51Z)
TOP-ReID: Multi-spectral Object Re-Identification with Token Permutation [64.65950381870742]
マルチスペクトルオブジェクトReID, Dubbled TOP-ReIDのための循環トークン置換フレームワークを提案する。また,巡回多スペクトル特徴アグリゲーションのためのToken Permutation Module (TPM)を提案する。提案するフレームワークは,ロバストなオブジェクトReIDに対して,より識別性の高いマルチスペクトル特徴を生成できる。
論文参考訳（メタデータ） (2023-12-15T08:54:15Z)
Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文参考訳（メタデータ） (2023-05-24T16:26:05Z)
Learning Progressive Modality-shared Transformers for Effective Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文参考訳（メタデータ） (2022-12-01T02:20:16Z)
Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。 2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文参考訳（メタデータ） (2022-07-19T03:31:13Z)
Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。 TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文参考訳（メタデータ） (2022-04-19T07:47:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。