論文の概要: Context-Based Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2403.04650v2
- Date: Fri, 8 Mar 2024 14:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 10:42:11.369913
- Title: Context-Based Multimodal Fusion
- Title(参考訳): コンテキストベースマルチモーダル融合
- Authors: Bilal Faye, Hanane Azzag, Mustapha Lebbah, Djamel Bouchaffra
- Abstract要約: 我々は、コンテキストベースマルチモーダルフュージョン(CBMF)と呼ばれる革新的なモデルを提案する。
CBMFは、モダリティ融合とデータ分散アライメントを組み合わせたものである。
CBMFは、凍結可能な大規模な事前訓練モデルの使用を可能にする。
- 参考スコア(独自算出の注目度): 0.08192907805418585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fusion models, which effectively combine information from different
sources, are widely used in solving multimodal tasks. However, they have
significant limitations related to aligning data distributions across different
modalities. This challenge can lead to inconsistencies and difficulties in
learning robust representations. Alignment models, while specifically
addressing this issue, often require training "from scratch" with large
datasets to achieve optimal results, which can be costly in terms of resources
and time. To overcome these limitations, we propose an innovative model called
Context-Based Multimodal Fusion (CBMF), which combines both modality fusion and
data distribution alignment. In CBMF, each modality is represented by a
specific context vector, fused with the embedding of each modality. This
enables the use of large pre-trained models that can be frozen, reducing the
computational and training data requirements. Additionally, the network learns
to differentiate embeddings of different modalities through fusion with context
and aligns data distributions using a contrastive approach for self-supervised
learning. Thus, CBMF offers an effective and economical solution for solving
complex multimodal tasks.
- Abstract(参考訳): 異なるソースからの情報を効果的に組み合わせた融合モデルは、マルチモーダルタスクの解決に広く利用されている。
しかし、異なるモダリティ間でのデータ分散を調整することには、大きな制限がある。
この課題は、堅牢な表現を学ぶ上での矛盾と困難につながる可能性がある。
アライメントモデルは、特にこの問題に対処しながら、リソースと時間の観点からはコストがかかるが、最適な結果を得るためには、大きなデータセットで「スクラッチから」トレーニングする必要があることが多い。
これらの制約を克服するために,モダリティ融合とデータ分散アライメントを組み合わせたContext-based Multimodal Fusion (CBMF) と呼ばれる革新的なモデルを提案する。
CBMFでは、各モダリティは特定のコンテキストベクトルによって表現され、各モダリティの埋め込みと融合する。
これにより、凍結可能な大規模な事前学習モデルの使用が可能になり、計算およびトレーニングデータ要求が削減される。
さらに、ネットワークはコンテキストとの融合を通じて異なるモーダルの埋め込みを区別することを学び、自己教師型学習のための対照的なアプローチを用いてデータ分布を整列する。
したがって、CBMFは複雑なマルチモーダルタスクを解決するための効果的で経済的ソリューションを提供する。
関連論文リスト
- Cross-Modal Prototype based Multimodal Federated Learning under Severely
Missing Modality [31.727012729846333]
MFCPL (Multimodal Federated Cross Prototype Learning) は、MFLにおいて、高度に欠落したモダリティの下での新たなアプローチである。
MFCPLは、モダリティ共有レベルにおいて、クロスモーダル正規化とクロスモーダルコントラスト機構を備えたモダリティ固有レベルと共に多様なモダリティ知識を提供する。
提案手法では,モーダリティに特有な特徴の正規化を実現するために,クロスモーダルアライメントを導入し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2024-01-25T02:25:23Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - SUMMIT: Source-Free Adaptation of Uni-Modal Models to Multi-Modal
Targets [30.262094419776208]
現在のアプローチでは、ソースデータが適応中に利用可能であり、ソースはペア化されたマルチモーダルデータで構成されていると仮定している。
本稿では,2つの相補的な擬似ラベル融合法を自動選択するスイッチングフレームワークを提案する。
提案手法は,mIoUが競合するベースラインよりも最大12%向上することを示す。
論文 参考訳(メタデータ) (2023-08-23T02:57:58Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - IMF: Interactive Multimodal Fusion Model for Link Prediction [13.766345726697404]
異なるモダリティからの知識を統合するために,インタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。
提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。
論文 参考訳(メタデータ) (2023-03-20T01:20:02Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。