論文の概要: Multimodal Transformer With a Low-Computational-Cost Guarantee
- arxiv url: http://arxiv.org/abs/2402.15096v1
- Date: Fri, 23 Feb 2024 05:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:40:17.269457
- Title: Multimodal Transformer With a Low-Computational-Cost Guarantee
- Title(参考訳): 低コスト保証付きマルチモーダル変圧器
- Authors: Sungjin Park and Edward Choi
- Abstract要約: Low-Cost Multimodal Transformer (LoCoMT) は、トレーニング中の計算コストを低減し、性能損失を最小限に抑えることを目的とした、新しいマルチモーダルアテンション機構である。
LoCoMTは柔軟にマルチモーダル信号を制御でき、理論上既存のマルチモーダルトランスフォーマーの変種と比較して計算コストを削減できる。
- 参考スコア(独自算出の注目度): 14.852842445363505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have significantly improved performance across a
range of multimodal understanding tasks, such as visual question answering and
action recognition. However, multimodal Transformers significantly suffer from
a quadratic complexity of the multi-head attention with the input sequence
length, especially as the number of modalities increases. To address this, we
introduce Low-Cost Multimodal Transformer (LoCoMT), a novel multimodal
attention mechanism that aims to reduce computational cost during training and
inference with minimal performance loss. Specifically, by assigning different
multimodal attention patterns to each attention head, LoCoMT can flexibly
control multimodal signals and theoretically ensures a reduced computational
cost compared to existing multimodal Transformer variants. Experimental results
on two multimodal datasets, namely Audioset and MedVidCL demonstrate that
LoCoMT not only reduces GFLOPs but also matches or even outperforms established
models.
- Abstract(参考訳): トランスフォーマーベースのモデルは、視覚的質問応答やアクション認識など、さまざまなマルチモーダル理解タスクでパフォーマンスが大幅に向上した。
しかし、マルチモーダルトランスフォーマーは、特にモダリティの数が増えるにつれて、入力シーケンス長によるマルチヘッドアテンションの2次複雑さに著しく悩まされる。
そこで我々はLoCoMT(Lo-Cost Multimodal Transformer)を導入する。LoCoMTは,トレーニング中の計算コストを低減し,性能損失を最小限に抑えることを目的とした,新しいマルチモーダルアテンション機構である。
具体的には、各アテンションヘッドに異なるマルチモーダルアテンションパターンを割り当てることで、LoCoMTは柔軟にマルチモーダル信号を制御でき、理論上は既存のマルチモーダルトランスフォーマーの変種と比較して計算コストを削減できる。
AudiosetとMedVidCLという2つのマルチモーダルデータセットの実験結果から、LoCoMTはGFLOPsを削減できるだけでなく、確立されたモデルにマッチしたり、性能に優れることを示した。
関連論文リスト
- Multiset Transformer: Advancing Representation Learning in Persistence Diagrams [11.512742322405906]
マルチセットトランスフォーマー(Multiset Transformer)は、マルチセットを入力として特別に設計されたアテンションメカニズムを利用するニューラルネットワークである。
このアーキテクチャは、マルチセット強化された注意とプール分解スキームを統合し、同変層にまたがる多重性を維持できる。
実験により、Multiset Transformerは、永続図表表現学習の領域において、既存のニューラルネットワーク手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-22T01:38:47Z) - GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis [0.0]
マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-27T06:44:28Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - MM-ViT: Multi-Modal Video Transformer for Compressed Video Action
Recognition [11.573689558780764]
本稿では,ビデオアクション認識のためのMulti-Modal Video Transformer(MM-Vi)と呼ばれる,純粋なトランスフォーマーベースのアプローチを提案する。
複数のモダリティから抽出された多数のトークンを扱うために、空間、時間、モダリティ次元をまたいだ自己注意を分解するいくつかのモデル変種を開発する。
3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーよりも効率と精度で優れていることを示した。
論文 参考訳(メタデータ) (2021-08-20T18:05:39Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Multi-Unit Transformers for Neural Machine Translation [51.418245676894465]
マルチユニット変換器 (MUTE) を提案し, 変換器の表現性を向上する。
具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデル性能を改善し、多様性を導入することを示す。
論文 参考訳(メタデータ) (2020-10-21T03:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。