論文の概要: Improving Multimodal Accuracy Through Modality Pre-training and
Attention
- arxiv url: http://arxiv.org/abs/2011.06102v1
- Date: Wed, 11 Nov 2020 22:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:06:42.418312
- Title: Improving Multimodal Accuracy Through Modality Pre-training and
Attention
- Title(参考訳): モダリティ事前学習と注意によるマルチモーダル精度の向上
- Authors: Aya Abdelsalam Ismail, Mahmudul Hasan, Faisal Ishtiaq
- Abstract要約: マルチモーダルネットワークのトレーニングは困難であり、適切なパフォーマンスを達成するためには複雑なアーキテクチャが必要である。
我々は、ネットワーク全体のエンドツーエンドトレーニングの前に、マルチモーダルアーキテクチャにおいて、モダリティ固有のサブネットワークを個別に事前訓練することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 3.7814216736076434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a multimodal network is challenging and it requires complex
architectures to achieve reasonable performance. We show that one reason for
this phenomena is the difference between the convergence rate of various
modalities. We address this by pre-training modality-specific sub-networks in
multimodal architectures independently before end-to-end training of the entire
network. Furthermore, we show that the addition of an attention mechanism
between sub-networks after pre-training helps identify the most important
modality during ambiguous scenarios boosting the performance. We demonstrate
that by performing these two tricks a simple network can achieve similar
performance to a complicated architecture that is significantly more expensive
to train on multiple tasks including sentiment analysis, emotion recognition,
and speaker trait recognition.
- Abstract(参考訳): マルチモーダルネットワークのトレーニングは困難であり、適切なパフォーマンスを達成するためには複雑なアーキテクチャが必要である。
この現象の1つの理由は、様々な様相の収束率の差である。
我々は、ネットワーク全体のエンドツーエンドのトレーニングの前に、マルチモーダルアーキテクチャでモダリティ固有のサブネットワークを個別にトレーニングすることで、この問題に対処する。
さらに,事前学習後のサブネットワーク間のアテンション機構の追加は,不明瞭なシナリオによる性能向上において,最も重要なモダリティを特定するのに役立つことを示す。
これらの2つのトリックを実行することで、単純なネットワークは、感情分析、感情認識、話者特性認識を含む複数のタスクをトレーニングするのに非常にコストがかかる複雑なアーキテクチャと同じようなパフォーマンスを実現することができることを示す。
関連論文リスト
- OmniVec: Learning robust representations with cross modal sharing [28.023214572340336]
複数のタスクを複数のモードで,統一されたアーキテクチャで学習する手法を提案する。
提案するネットワークはタスク固有エンコーダ(中央の共通トランク)とタスク固有予測ヘッドで構成される。
私たちは、視覚、オーディオ、テキスト、3Dなどの主要なモダリティでネットワークをトレーニングし、22ドルの多様性と挑戦的な公開ベンチマークの結果を報告します。
論文 参考訳(メタデータ) (2023-11-07T14:00:09Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Dynamic Neural Network for Multi-Task Learning Searching across Diverse
Network Topologies [14.574399133024594]
多様なグラフトポロジを持つ複数のタスクに対して最適化された構造を探索する新しいMTLフレームワークを提案する。
我々は、トポロジ的に多様なタスク適応構造を構築するために、読み出し/読み出し層を備えたDAGベースの制限付き中央ネットワークを設計する。
論文 参考訳(メタデータ) (2023-03-13T05:01:50Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - The Multiple Subnetwork Hypothesis: Enabling Multidomain Learning by
Isolating Task-Specific Subnetworks in Feedforward Neural Networks [0.0]
我々は,未使用の重み付きネットワークがその後のタスクを学習するための方法論とネットワーク表現構造を同定する。
提案手法を用いてトレーニングされたネットワークは,タスクのパフォーマンスを犠牲にすることなく,あるいは破滅的な忘れを伴わずに,複数のタスクを学習できることを示す。
論文 参考訳(メタデータ) (2022-07-18T15:07:13Z) - Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably) [75.38159612828362]
最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
論文 参考訳(メタデータ) (2022-03-23T06:21:53Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Recursive Multi-model Complementary Deep Fusion forRobust Salient Object
Detection via Parallel Sub Networks [62.26677215668959]
完全畳み込みネットワークは、正体検出(SOD)分野において優れた性能を示している。
本稿では,全く異なるネットワークアーキテクチャを持つ並列サブネットワークからなる,より広いネットワークアーキテクチャを提案する。
いくつかの有名なベンチマークの実験では、提案されたより広範なフレームワークの優れた性能、優れた一般化、強力な学習能力が明らかに示されている。
論文 参考訳(メタデータ) (2020-08-07T10:39:11Z) - Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional
Emotion Recognition [38.350188118975616]
本稿では、2ストリームのオートエンコーダと、感情認識のための長期記憶からなる新しいディープニューラルネットワークアーキテクチャを提案する。
野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。
実験の結果,提案手法は最先端の認識性能を達成し,既存のスキームをはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2020-04-28T01:25:00Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。