論文の概要: High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning
- arxiv url: http://arxiv.org/abs/2203.01311v4
- Date: Wed, 28 Jun 2023 17:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 18:48:51.527900
- Title: High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning
- Title(参考訳): 高モダリティ多モード変換器:高モダリティ表現学習のためのモダリティと相互作用の不均一性の定量化
- Authors: Paul Pu Liang, Yiwei Lyu, Xiang Fan, Jeffrey Tsaw, Yudong Liu,
Shentong Mo, Dani Yogatama, Louis-Philippe Morency, Ruslan Salakhutdinov
- Abstract要約: 本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
- 参考スコア(独自算出の注目度): 112.51498431119616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world problems are inherently multimodal, from spoken language,
gestures, and paralinguistics humans use to communicate, to force,
proprioception, and visual sensors on robots. While there has been an explosion
of interest in multimodal learning, these methods are focused on a small set of
modalities primarily in language, vision, and audio. In order to accelerate
generalization towards diverse and understudied modalities, this paper studies
efficient representation learning for high-modality scenarios involving a large
set of diverse modalities. Since adding new models for every new modality
becomes prohibitively expensive, a critical technical challenge is
heterogeneity quantification: how can we measure which modalities encode
similar information and interactions in order to permit parameter sharing with
previous modalities? This paper proposes two new information theoretic metrics
for heterogeneity quantification: (1) modality heterogeneity studies how
similar 2 modalities {X1,X2} are by measuring how much information can be
transferred from X1 to X2, while (2) interaction heterogeneity studies how
similarly pairs of modalities {X1,X2}, {X3,X4} interact by measuring how much
information can be transferred from fusing {X1,X2} to {X3,X4}. We show the
importance of these 2 proposed metrics as a way to automatically prioritize the
fusion of modalities that contain unique information or interactions. The
result is a single model, HighMMT, that scales up to 10 modalities (text,
image, audio, video, sensors, proprioception, speech, time-series, sets, and
tables) and 15 tasks from 5 research areas. Not only does HighMMT outperform
prior methods on the tradeoff between performance and efficiency, it also
demonstrates a crucial scaling behavior: performance continues to improve with
each modality added, and it transfers to entirely new modalities and tasks
during fine-tuning.
- Abstract(参考訳): 現実の多くの問題は本質的にマルチモーダルであり、人間のコミュニケーション、強制、受容、ロボットの視覚センサーなどに使われる言語、ジェスチャー、パラ言語などである。
マルチモーダル学習への関心は爆発的に高まっているが、これらの手法は主に言語、視覚、音声に焦点が当てられている。
本稿では,多種多様なモダリティに対する一般化を加速するために,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
新しいモダリティに新しいモデルを追加することは、必然的に高価になるので、重要な技術的課題は、多様性の定量化である: 前のモダリティとパラメータの共有を可能にするために、類似した情報と相互作用をエンコードするモダリティをどうやって測定できるのか?
異質性量子化のための2つの新しい情報理論指標を提案する。(1) モダリティの不均一性(modality heterogeneity)は、X1からX2への情報転送量を測定することによって、また(2) 相互作用異質性(interaction heterogeneity)は、Fusing {X1,X2} から {X3,X4} への情報転送量を測定することによって、どのように相互作用するかを測定する。
提案する2つの指標を,ユニークな情報やインタラクションを含むモダリティの融合を自動的に優先順位付けする方法として重要視する。
その結果、単一のモデルであるhighmmtが、最大10のモダリティ(テキスト、画像、音声、ビデオ、センサー、プロピオセプション、音声、時系列、セット、テーブル)と5つの研究領域から15のタスクにスケールする。
HighMMTは、パフォーマンスと効率のトレードオフに関する事前の手法よりも優れているだけでなく、重要なスケーリングの挙動も示している。
関連論文リスト
- Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy? [12.662031101992968]
合成および実世界の両方のデータセットにおける認識精度に対する多重モーダル性の影響について検討する。
音声認識のための補足的モダリティとしてのイメージは、中等度雑音レベルにおいて最大の利益をもたらす。
最も関連性の高い視覚情報が前処理ステップとしてフィルタリングされる場合、合成データセットと実世界のデータセットの両方のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-09-13T22:18:45Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Video Sentiment Analysis with Bimodal Information-augmented Multi-Head
Attention [7.997124140597719]
本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。
重要な問題は、これらの異種データをどのように融合するかです。
バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
論文 参考訳(メタデータ) (2021-03-03T12:30:11Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。