論文の概要: On the Benefits of Early Fusion in Multimodal Representation Learning
- arxiv url: http://arxiv.org/abs/2011.07191v1
- Date: Sat, 14 Nov 2020 01:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 13:21:05.049483
- Title: On the Benefits of Early Fusion in Multimodal Representation Learning
- Title(参考訳): マルチモーダル表現学習における早期融合の利点について
- Authors: George Barnum, Sabera Talukder, Yisong Yue
- Abstract要約: 我々は、音声と視覚の両方を同時に処理する畳み込みLSTMネットワークアーキテクチャを作成する。
以上の結果から,初期C-LSTM層における音声と視覚入力の即時融合により,ネットワークの性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 31.870141076085716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligently reasoning about the world often requires integrating data from
multiple modalities, as any individual modality may contain unreliable or
incomplete information. Prior work in multimodal learning fuses input
modalities only after significant independent processing. On the other hand,
the brain performs multimodal processing almost immediately. This divide
between conventional multimodal learning and neuroscience suggests that a
detailed study of early multimodal fusion could improve artificial multimodal
representations. To facilitate the study of early multimodal fusion, we create
a convolutional LSTM network architecture that simultaneously processes both
audio and visual inputs, and allows us to select the layer at which audio and
visual information combines. Our results demonstrate that immediate fusion of
audio and visual inputs in the initial C-LSTM layer results in higher
performing networks that are more robust to the addition of white noise in both
audio and visual inputs.
- Abstract(参考訳): 世界のインテリジェントな推論には、個々のモダリティが信頼できない情報や不完全な情報を含む可能性があるため、複数のモダリティからのデータを統合する必要がある。
マルチモーダル学習における先行研究は、重要な独立処理後にのみ入力モダリティを融合させる。
一方、脳はほぼ即座にマルチモーダル処理を行う。
この従来のマルチモーダル学習と神経科学の分離は、初期のマルチモーダル融合の詳細な研究が人工マルチモーダル表現を改善することを示唆している。
初期のマルチモーダル融合の研究を容易にするために,音声と視覚の両方の入力を同時に処理する畳み込みLSTMネットワークアーキテクチャを構築し,音声と視覚情報を組み合わせたレイヤを選択する。
以上の結果から,初期C-LSTM層における音声入力と視覚入力の即時融合により,音声入力と視覚入力の両方において白色雑音が付加されることにより,高い性能のネットワークが得られることが示された。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Vision-Language Integration in Multimodal Video Transformers (Partially)
Aligns with the Brain [5.496000639803771]
本稿では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前訓練したマルチモーダルビデオトランスフォーマーモデルを提案する。
視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。
本研究では、視覚言語推論を必要とするタスクを用いて微調整を行うことにより、事前訓練された関節表現の脳アライメントを改善することができることを示す。
論文 参考訳(メタデータ) (2023-11-13T21:32:37Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - NExT-GPT: Any-to-Any Multimodal LLM [75.5656492989924]
我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。
NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。
モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
論文 参考訳(メタデータ) (2023-09-11T15:02:25Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。