論文の概要: GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer
- arxiv url: http://arxiv.org/abs/2406.01210v2
- Date: Tue, 4 Jun 2024 03:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:18:57.184843
- Title: GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer
- Title(参考訳): GeminiFusion:ビジョントランスのための高効率な画素ワイドマルチモーダルフュージョン
- Authors: Ding Jia, Jianyuan Guo, Kai Han, Han Wu, Chao Zhang, Chang Xu, Xinghao Chen,
- Abstract要約: クロスモーダル変換器は、様々なモダリティを効果的に統合することにより、様々な視覚タスクにおいて優位性を証明している。
本稿では,画素単位の融合手法であるGeminiFusionを提案する。
我々は,層間相互作用を適応的に制御するために層適応雑音を用い,調和した融合プロセスを実現する。
- 参考スコア(独自算出の注目度): 44.44603063754173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal transformers have demonstrated superiority in various vision tasks by effectively integrating different modalities. This paper first critiques prior token exchange methods which replace less informative tokens with inter-modal features, and demonstrate exchange based methods underperform cross-attention mechanisms, while the computational demand of the latter inevitably restricts its use with longer sequences. To surmount the computational challenges, we propose GeminiFusion, a pixel-wise fusion approach that capitalizes on aligned cross-modal representations. GeminiFusion elegantly combines intra-modal and inter-modal attentions, dynamically integrating complementary information across modalities. We employ a layer-adaptive noise to adaptively control their interplay on a per-layer basis, thereby achieving a harmonized fusion process. Notably, GeminiFusion maintains linear complexity with respect to the number of input tokens, ensuring this multimodal framework operates with efficiency comparable to unimodal networks. Comprehensive evaluations across multimodal image-to-image translation, 3D object detection and arbitrary-modal semantic segmentation tasks, including RGB, depth, LiDAR, event data, etc. demonstrate the superior performance of our GeminiFusion against leading-edge techniques. The PyTorch code is available at https://github.com/JiaDingCN/GeminiFusion
- Abstract(参考訳): クロスモーダル変換器は、様々なモダリティを効果的に統合することにより、様々な視覚タスクにおいて優位性を証明している。
本稿では,より少ない情報的トークンをモーダル的特徴に置き換える先行トークン交換手法をまず批判し,交換に基づく手法が相互注意機構を過小評価する一方で,後者の計算要求は必然的に,より長いシーケンスでの使用を制限する。
計算課題を克服するため,画素単位の融合手法であるGeminiFusionを提案する。
GeminiFusionは、モーダル内の注意とモーダル間の注意をエレガントに組み合わせ、モーダル間の補完情報を動的に統合する。
我々は,層間相互作用を適応的に制御するために層適応雑音を用い,調和した融合プロセスを実現する。
特に、GeminiFusionは入力トークンの数に関して線形複雑性を維持しており、このマルチモーダルフレームワークはユニモーダルネットワークに匹敵する効率で動作する。
RGB,deep,LiDAR,イベントデータなど,マルチモーダル画像から画像への変換,3次元オブジェクト検出,任意のモーダルセマンティックセマンティックセマンティクスタスクの総合的な評価は,先進的手法に対するジェミニフュージョンの優れた性能を示している。
PyTorchのコードはhttps://github.com/JiaDingCN/GeminiFusionで入手できる。
関連論文リスト
- Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - Exchanging-based Multimodal Fusion with Transformer [19.398692598523454]
本稿では,マルチモーダル核融合の問題点について考察する。
近年,あるモダリティから他のモダリティへ学習した埋め込みを交換することを目的としたビジョン・ビジョン・フュージョンのための交換方式が提案されている。
本稿では,Transformer を用いたテキストビジョン融合のための交換型マルチモーダル融合モデル MuSE を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:48:25Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。