論文の概要: Attention Bottlenecks for Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2107.00135v1
- Date: Wed, 30 Jun 2021 22:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:47:12.279011
- Title: Attention Bottlenecks for Multimodal Fusion
- Title(参考訳): マルチモーダル融合のための注意ボトルネック
- Authors: Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid
and Chen Sun
- Abstract要約: 機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 90.75885715478054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans perceive the world by concurrently processing and fusing
high-dimensional inputs from multiple modalities such as vision and audio.
Machine perception models, in stark contrast, are typically modality-specific
and optimised for unimodal benchmarks, and hence late-stage fusion of final
representations or predictions from each modality (`late-fusion') is still a
dominant paradigm for multimodal video classification. Instead, we introduce a
novel transformer based architecture that uses `fusion bottlenecks' for
modality fusion at multiple layers. Compared to traditional pairwise
self-attention, our model forces information between different modalities to
pass through a small number of bottleneck latents, requiring the model to
collate and condense the most relevant information in each modality and only
share what is necessary. We find that such a strategy improves fusion
performance, at the same time reducing computational cost. We conduct thorough
ablation studies, and achieve state-of-the-art results on multiple audio-visual
classification benchmarks including Audioset, Epic-Kitchens and VGGSound. All
code and models will be released.
- Abstract(参考訳): 人間は視覚や音声などの複数のモードからの高次元入力を同時に処理し、融合することで世界を認識する。
機械知覚モデルは、対照的にユニモーダルなベンチマークにおいてモダリティに特有で最適化されており、したがって各モダリティからの最終表現や予測の後期段階の融合(「レイト・フュージョン」)は、依然としてマルチモーダルビデオ分類の主要なパラダイムである。
代わりに,複数の層でのモーダリティ融合に ‘fusion bottlenecks’ を用いる,新しいトランスフォーマティブベースのアーキテクチャを導入する。
従来のペアワイズ・セルフ・アテンションと比較して,我々のモデルは,異なるモダリティ間の情報を少数のボトルネック・ラテントを通過するように強制し,モデルが各モダリティにおいて最も関連性の高い情報を照合し,集約し,必要な情報のみを共有するように要求する。
このような戦略により核融合性能が向上し,計算コストの低減が図られる。
我々は,Audioset,Epic-Kitchens,VGGSoundなどの複数の視覚的分類ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端の結果を得る。
すべてのコードとモデルがリリースされる。
関連論文リスト
- Fine-Grained Scene Image Classification with Modality-Agnostic Adapter [8.801601759337006]
MAA(Modality-Agnostic Adapter)と呼ばれる新しいマルチモーダル特徴融合手法を提案する。
我々は分散のモーダル差を排除し、その後、意味レベルの特徴融合のためにモダリティに依存しないトランスフォーマーエンコーダを使用する。
実験により,MAAは従来の手法と同一のモーダル性を適用することで,ベンチマーク上での最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-03T02:57:14Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences [16.38826799727453]
融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。
本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。
実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2022-11-12T13:05:28Z) - Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval [36.50847375135979]
ビデオデータからのマルチモーダル学習は、人間のアノテーションを使わずに意味のある埋め込みを訓練できるため、近年注目を集めている。
本稿では,ビデオ,音声,テキストなどの複数のモーダル間の情報交換を学習し,それらを結合したマルチモーダル表現に統合するマルチモーダル・モーダル融合トランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2021-12-08T18:14:57Z) - ScaleVLAD: Improving Multimodal Sentiment Analysis via Multi-Scale
Fusion of Locally Descriptors [15.042741192427334]
本稿では,テキスト,ビデオ,オーディオからマルチスケール表現を収集する「スケールVLAD」という融合モデルを提案する。
IEMOCAP、MOSI、MOSEIの3つの一般的な感情分析ベンチマークの実験は、ベースラインよりも大幅に向上した。
論文 参考訳(メタデータ) (2021-12-02T16:09:33Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。