論文の概要: Does my multimodal model learn cross-modal interactions? It's harder to
tell than you might think!
- arxiv url: http://arxiv.org/abs/2010.06572v1
- Date: Tue, 13 Oct 2020 17:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 22:45:45.124452
- Title: Does my multimodal model learn cross-modal interactions? It's harder to
tell than you might think!
- Title(参考訳): 私のマルチモーダルモデルは相互モーダル相互作用を学ぶか?
思った以上に言いにくい!
- Authors: Jack Hessel and Lillian Lee
- Abstract要約: クロスモーダルモデリングは、視覚的質問応答のようなマルチモーダルタスクにおいて不可欠である。
本稿では,与えられたタスク上でのモデル間の相互作用によって性能が向上するか否かを分離する,新たな診断ツールである経験的多モード付加関数投影(EMAP)を提案する。
7つの画像+テキスト分類タスク(それぞれに新しい最先端のベンチマークを設定した)に対して、多くの場合、モーダル間相互作用を削除することは、パフォーマンスの劣化をほとんど、あるいは全く起こさない。
- 参考スコア(独自算出の注目度): 26.215781778606168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling expressive cross-modal interactions seems crucial in multimodal
tasks, such as visual question answering. However, sometimes high-performing
black-box algorithms turn out to be mostly exploiting unimodal signals in the
data. We propose a new diagnostic tool, empirical multimodally-additive
function projection (EMAP), for isolating whether or not cross-modal
interactions improve performance for a given model on a given task. This
function projection modifies model predictions so that cross-modal interactions
are eliminated, isolating the additive, unimodal structure. For seven
image+text classification tasks (on each of which we set new state-of-the-art
benchmarks), we find that, in many cases, removing cross-modal interactions
results in little to no performance degradation. Surprisingly, this holds even
when expressive models, with capacity to consider interactions, otherwise
outperform less expressive models; thus, performance improvements, even when
present, often cannot be attributed to consideration of cross-modal feature
interactions. We hence recommend that researchers in multimodal machine
learning report the performance not only of unimodal baselines, but also the
EMAP of their best-performing model.
- Abstract(参考訳): 表現的相互モーダル相互作用のモデル化は、視覚的質問応答のような多モーダルタスクにおいて重要である。
しかし、時に高いパフォーマンスのブラックボックスアルゴリズムは、主にデータ内の偶発的な信号を利用する。
本稿では,与えられたタスク上でのモデル間の相互作用によって性能が向上するか否かを分離する,新しい診断ツールEMAPを提案する。
この関数プロジェクションはモデル予測を修正し、クロスモーダルな相互作用を排除し、加法的不定形構造を分離する。
7つの画像+テキスト分類タスク(それぞれに新しい最先端のベンチマークを設定した)に対して、多くの場合、モーダル間相互作用を削除することは、パフォーマンスの劣化をほとんど、あるいは全く起こさない。
驚くべきことに、これは表現力のあるモデルであっても、相互作用を考慮する能力を持ち、そうでなければ表現力の少ないモデルよりも優れている。
したがって、マルチモーダル機械学習の研究者は、単調なベースラインだけでなく、最高のパフォーマンスモデルのEMAPも報告することを推奨する。
関連論文リスト
- MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Switch-BERT: Learning to Model Multimodal Interactions by Switching
Attention and Input [27.102030262319197]
共用視覚と言語表現学習のためのtextbfSwitch-BERT を提案し,モダリティミスマッチの問題に対処する。
Switch-BERTは、学習可能な層と層間相互作用を導入することでBERTアーキテクチャを拡張している。
結果は、ViLBERT や UNITER といった代替アーキテクチャが特定のタスクに優れているのに対して、Switch-BERT は一貫して優れたパフォーマンスや同等のパフォーマンスを達成できることを示している。
論文 参考訳(メタデータ) (2023-06-25T09:28:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - UNIMO-3: Multi-granularity Interaction for Vision-Language
Representation Learning [35.88753097105914]
マルチモーダルな層間相互作用と層間相互作用を同時に学習する能力を持つ UNIMO-3 モデルを提案する。
我々のモデルは,様々な下流タスクにおける最先端性能を実現し,効果的な層間学習がマルチモーダル表現の能力を向上することを証明することができる。
論文 参考訳(メタデータ) (2023-05-23T05:11:34Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive
Representation Learning [35.25854322376364]
CLIPのようなマルチモーダルモデルにおいて、データモダリティは、その共有表現に腕の長さに埋め込まれていることが示される。
対照的に、学習は、損失関数の温度パラメータの影響を受け、特定の距離で異なるモードを分離する。
実験により, モダリティギャップ距離の変化は, 下流のゼロショット分類性能と公平性を改善する上で大きな影響を与えることが示された。
論文 参考訳(メタデータ) (2022-03-03T22:53:54Z) - Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文 参考訳(メタデータ) (2022-02-18T15:44:14Z) - Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2020-11-04T21:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。