論文の概要: Switch-BERT: Learning to Model Multimodal Interactions by Switching
Attention and Input
- arxiv url: http://arxiv.org/abs/2306.14182v1
- Date: Sun, 25 Jun 2023 09:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 16:25:10.878416
- Title: Switch-BERT: Learning to Model Multimodal Interactions by Switching
Attention and Input
- Title(参考訳): Switch-BERT: 意図と入力の切り替えによるマルチモーダルインタラクションのモデル化
- Authors: Qingpei Guo, Kaisheng Yao and Wei Chu
- Abstract要約: 共用視覚と言語表現学習のためのtextbfSwitch-BERT を提案し,モダリティミスマッチの問題に対処する。
Switch-BERTは、学習可能な層と層間相互作用を導入することでBERTアーキテクチャを拡張している。
結果は、ViLBERT や UNITER といった代替アーキテクチャが特定のタスクに優れているのに対して、Switch-BERT は一貫して優れたパフォーマンスや同等のパフォーマンスを達成できることを示している。
- 参考スコア(独自算出の注目度): 27.102030262319197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to model intra-modal and inter-modal interactions is fundamental
in multimodal machine learning. The current state-of-the-art models usually
adopt deep learning models with fixed structures. They can achieve exceptional
performances on specific tasks, but face a particularly challenging problem of
modality mismatch because of diversity of input modalities and their fixed
structures. In this paper, we present \textbf{Switch-BERT} for joint vision and
language representation learning to address this problem. Switch-BERT extends
BERT architecture by introducing learnable layer-wise and cross-layer
interactions. It learns to optimize attention from a set of attention modes
representing these interactions. One specific property of the model is that it
learns to attend outputs from various depths, therefore mitigates the modality
mismatch problem. We present extensive experiments on visual question
answering, image-text retrieval and referring expression comprehension
experiments. Results confirm that, whereas alternative architectures including
ViLBERT and UNITER may excel in particular tasks, Switch-BERT can consistently
achieve better or comparable performances than the current state-of-the-art
models in these tasks. Ablation studies indicate that the proposed model
achieves superior performances due to its ability in learning task-specific
multimodal interactions.
- Abstract(参考訳): モーダル内およびモーダル間インタラクションをモデル化する能力は、マルチモーダル機械学習において基本である。
現在の最先端モデルは通常、固定構造を持つディープラーニングモデルを採用する。
特定のタスクにおいて例外的なパフォーマンスを達成できるが、入力モダリティの多様性とその固定構造のため、特にモダリティミスマッチの問題に直面している。
本稿では,共同ビジョンと言語表現学習のための \textbf{Switch-BERT} を提案する。
Switch-BERTは、学習可能な層と層間相互作用を導入することでBERTアーキテクチャを拡張している。
これらの相互作用を表す一連の注意モードから注意を最適化することを学ぶ。
モデルの特徴の1つは、様々な深さから出力に出席することを学び、モダリティミスマッチ問題を緩和することである。
本稿では,視覚的質問応答,画像テキスト検索,参照表現理解実験に関する広範な実験を行う。
結果は、ViLBERT や UNITER といった代替アーキテクチャが特定のタスクに優れているのに対して、Switch-BERT は現在の最先端モデルよりも一貫して優れたパフォーマンスや同等のパフォーマンスを達成できることを示している。
アブレーション研究は,提案モデルがタスク固有のマルチモーダルインタラクションを学習する能力により優れた性能が得られることを示す。
関連論文リスト
- HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - UNIMO-3: Multi-granularity Interaction for Vision-Language
Representation Learning [35.88753097105914]
マルチモーダルな層間相互作用と層間相互作用を同時に学習する能力を持つ UNIMO-3 モデルを提案する。
我々のモデルは,様々な下流タスクにおける最先端性能を実現し,効果的な層間学習がマルチモーダル表現の能力を向上することを証明することができる。
論文 参考訳(メタデータ) (2023-05-23T05:11:34Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z) - Does my multimodal model learn cross-modal interactions? It's harder to
tell than you might think! [26.215781778606168]
クロスモーダルモデリングは、視覚的質問応答のようなマルチモーダルタスクにおいて不可欠である。
本稿では,与えられたタスク上でのモデル間の相互作用によって性能が向上するか否かを分離する,新たな診断ツールである経験的多モード付加関数投影(EMAP)を提案する。
7つの画像+テキスト分類タスク(それぞれに新しい最先端のベンチマークを設定した)に対して、多くの場合、モーダル間相互作用を削除することは、パフォーマンスの劣化をほとんど、あるいは全く起こさない。
論文 参考訳(メタデータ) (2020-10-13T17:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。