論文の概要: Routing with Self-Attention for Multimodal Capsule Networks
- arxiv url: http://arxiv.org/abs/2112.00775v1
- Date: Wed, 1 Dec 2021 19:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:37:31.198634
- Title: Routing with Self-Attention for Multimodal Capsule Networks
- Title(参考訳): 自己注意型マルチモーダルカプセルネットワークのルーティング
- Authors: Kevin Duarte, Brian Chen, Nina Shvetsova, Andrew Rouditchenko, Samuel
Thomas, Alexander Liu, David Harwath, James Glass, Hilde Kuehne, Mubarak Shah
- Abstract要約: 我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
- 参考スコア(独自算出の注目度): 108.85007719132618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of multimodal learning has seen a growing interest recently as it
allows for training neural architectures based on different modalities such as
vision, text, and audio. One challenge in training such models is that they
need to jointly learn semantic concepts and their relationships across
different input representations. Capsule networks have been shown to perform
well in context of capturing the relation between low-level input features and
higher-level concepts. However, capsules have so far mainly been used only in
small-scale fully supervised settings due to the resource demand of
conventional routing algorithms. We present a new multimodal capsule network
that allows us to leverage the strength of capsules in the context of a
multimodal learning framework on large amounts of video data. To adapt the
capsules to large-scale input data, we propose a novel routing by
self-attention mechanism that selects relevant capsules which are then used to
generate a final joint multimodal feature representation. This allows not only
for robust training with noisy video data, but also to scale up the size of the
capsule network compared to traditional routing methods while still being
computationally efficient. We evaluate the proposed architecture by pretraining
it on a large-scale multimodal video dataset and applying it on four datasets
in two challenging downstream tasks. Results show that the proposed multimodal
capsule network is not only able to improve results compared to other routing
techniques, but also achieves competitive performance on the task of multimodal
learning.
- Abstract(参考訳): マルチモーダル学習のタスクは、視覚、テキスト、音声といった異なるモダリティに基づいたニューラルネットワークアーキテクチャのトレーニングを可能にするため、近年関心が高まっている。
このようなモデルをトレーニングする上での課題のひとつは、さまざまな入力表現にまたがる意味概念とその関係を、共同で学ぶ必要があることだ。
カプセルネットワークは、低レベルの入力特徴と高レベルの概念の関係を捉えるという文脈でうまく機能することが示されている。
しかしながら、カプセルは従来のルーティングアルゴリズムのリソース需要のため、主に小規模で完全に制御された設定でしか使われていない。
我々は,大量のビデオデータを用いたマルチモーダル学習フレームワークにおいて,カプセルの強度を活用できる新しいマルチモーダルカプセルネットワークを提案する。
本研究では, カプセルを大規模入力データに適応させるために, 関連カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズをスケールアップすることが可能になる。
提案アーキテクチャは,大規模マルチモーダルビデオデータセット上で事前学習し,4つのデータセットに2つの課題のあるダウンストリームタスクを適用して評価する。
その結果,提案するマルチモーダルカプセルネットワークは,他のルーティング手法に比べて結果が向上するだけでなく,マルチモーダル学習における競合性能も向上することがわかった。
関連論文リスト
- Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably) [75.38159612828362]
最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
論文 参考訳(メタデータ) (2022-03-23T06:21:53Z) - Bandit Sampling for Multiplex Networks [8.771092194928674]
多数のレイヤを持つ多重ネットワーク上でのスケーラブルな学習アルゴリズムを提案する。
オンライン学習アルゴリズムは、トレーニング中に関連する情報を持つレイヤのみを集約するように、関連する隣のレイヤをサンプリングする方法を学ぶ。
合成シナリオと実世界のシナリオの両方に関する実験結果を示す。
論文 参考訳(メタデータ) (2022-02-08T03:26:34Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Training Deep Capsule Networks with Residual Connections [0.0]
capsule networkは、最近人気が高まっているニューラルネットワークの一種だ。
それらはカプセルと呼ばれるニューロンのグループで構成され、オブジェクトやオブジェクトの部分の特性をエンコードする。
多くのカプセルネットワーク実装では2層から3層にカプセル層が使われており、表現性が指数関数的に大きくなり、適用性が制限されている。
4つのデータセットと3つの異なるルーティングアルゴリズムで評価された残差接続を用いた深層カプセルネットワークを訓練する手法を提案する。
実験の結果,より深いカプセルネットワークのトレーニングでは,性能が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-15T11:42:44Z) - Multimodal Knowledge Expansion [14.332957885505547]
ラベルを必要とせずにマルチモーダルデータを利用する知識蒸留に基づくフレームワークを提案する。
我々は、マルチモーダルな学生モデルが一貫して疑似ラベルを否定し、教師よりも優れた一般化を示す。
論文 参考訳(メタデータ) (2021-03-26T12:32:07Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。