論文の概要: GraFT: Gradual Fusion Transformer for Multimodal Re-Identification
- arxiv url: http://arxiv.org/abs/2310.16856v1
- Date: Wed, 25 Oct 2023 00:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 00:17:54.798438
- Title: GraFT: Gradual Fusion Transformer for Multimodal Re-Identification
- Title(参考訳): GraFT:マルチモーダル再同定のためのGradual Fusion Transformer
- Authors: Haoli Yin, Jiayao Li (Emily), Eva Schiller, Luke McDermott, Daniel
Cummings
- Abstract要約: マルチモーダル ReID のための textbf Gradual Fusion Transformer (GraFT) を導入する。
GraFTは学習可能な融合トークンを使用し、エンコーダ間で自己注意を誘導し、モダリティ固有の特徴とオブジェクト固有の特徴の両方を順応的にキャプチャする。
これらの拡張を広範囲にわたるアブレーション研究を通じて実証し、GraFTが確立されたマルチモーダルReIDベンチマークを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 0.8999666725996975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object Re-Identification (ReID) is pivotal in computer vision, witnessing an
escalating demand for adept multimodal representation learning. Current models,
although promising, reveal scalability limitations with increasing modalities
as they rely heavily on late fusion, which postpones the integration of
specific modality insights. Addressing this, we introduce the \textbf{Gradual
Fusion Transformer (GraFT)} for multimodal ReID. At its core, GraFT employs
learnable fusion tokens that guide self-attention across encoders, adeptly
capturing both modality-specific and object-specific features. Further
bolstering its efficacy, we introduce a novel training paradigm combined with
an augmented triplet loss, optimizing the ReID feature embedding space. We
demonstrate these enhancements through extensive ablation studies and show that
GraFT consistently surpasses established multimodal ReID benchmarks.
Additionally, aiming for deployment versatility, we've integrated neural
network pruning into GraFT, offering a balance between model size and
performance.
- Abstract(参考訳): オブジェクト再識別 (reid) はコンピュータビジョンにおいて重要であり、多変量表現学習への需要が高まるのを目の当たりにしている。
現在のモデルは有望ではあるが、特定のモダリティの洞察の統合を延期する後期融合に大きく依存するため、モダリティの増加に伴うスケーラビリティの制限を明らかにしている。
これに対応するために,マルチモーダル ReID 用の \textbf{Gradual Fusion Transformer (GraFT) を導入する。
GraFTの中核となるのは、学習可能な融合トークンで、エンコーダをまたいで自己注意を誘導し、モダリティ固有の特徴とオブジェクト固有の特徴の両方を取り込む。
さらに有効性を高め,ReID特徴埋め込み空間を最適化し,拡張三重項損失と組み合わせた新たなトレーニングパラダイムを導入する。
本研究では,GraFTが既存のマルチモーダルReIDベンチマークを一貫して上回っていることを示す。
さらに、デプロイメントの汎用性を目指して、ニューラルネットワークのプルーニングをGraFTに統合し、モデルサイズとパフォーマンスのバランスを提供しています。
関連論文リスト
- MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。