論文の概要: Multimodal Fusion Refiner Networks
- arxiv url: http://arxiv.org/abs/2104.03435v1
- Date: Thu, 8 Apr 2021 00:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 02:20:58.099196
- Title: Multimodal Fusion Refiner Networks
- Title(参考訳): マルチモーダル核融合精製ネットワーク
- Authors: Sethuraman Sankaran, David Yang, Ser-Nam Lim
- Abstract要約: Refiner Fusion Network (ReFNet) を開発し, 融合モジュールが強い一助表現と強いマルチモーダル表現を組み合わせられるようにした。
ReFNetは、融合ネットワークと復号/復号モジュールを結合し、モダリティ中心の責任条件を課す。
我々はRefiner Fusion Networkがマルチモーダルトランスなどの強力なベースライン融合モジュールの性能を向上させることを実証した。
- 参考スコア(独自算出の注目度): 22.93868090722948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tasks that rely on multi-modal information typically include a fusion module
that combines information from different modalities. In this work, we develop a
Refiner Fusion Network (ReFNet) that enables fusion modules to combine strong
unimodal representation with strong multimodal representations. ReFNet combines
the fusion network with a decoding/defusing module, which imposes a
modality-centric responsibility condition. This approach addresses a big gap in
existing multimodal fusion frameworks by ensuring that both unimodal and fused
representations are strongly encoded in the latent fusion space. We demonstrate
that the Refiner Fusion Network can improve upon performance of powerful
baseline fusion modules such as multimodal transformers. The refiner network
enables inducing graphical representations of the fused embeddings in the
latent space, which we prove under certain conditions and is supported by
strong empirical results in the numerical experiments. These graph structures
are further strengthened by combining the ReFNet with a Multi-Similarity
contrastive loss function. The modular nature of Refiner Fusion Network lends
itself to be combined with different fusion architectures easily, and in
addition, the refiner step can be applied for pre-training on unlabeled
datasets, thus leveraging unsupervised data towards improving performance. We
demonstrate the power of Refiner Fusion Networks on three datasets, and further
show that they can maintain performance with only a small fraction of labeled
data.
- Abstract(参考訳): マルチモーダル情報に依存するタスクは通常、異なるモーダル情報を組み合わせた融合モジュールを含む。
本研究では,強いユニモーダル表現と強いマルチモーダル表現を組み合わせたrefnet(refnet)を開発した。
ReFNetは、融合ネットワークと復号/復号モジュールを結合し、モダリティ中心の責任条件を課す。
このアプローチは、既存のマルチモーダル融合フレームワークにおける大きなギャップに対処し、非モーダル表現と融合表現の両方が潜在核融合空間で強くエンコードされることを保証する。
Refiner Fusion Networkはマルチモーダルトランスなどの強力なベースライン融合モジュールの性能を向上させることができることを示す。
精細化ネットワークは, 潜伏空間に融合した埋め込みのグラフィカルな表現を誘導し, 一定の条件下で証明し, 数値実験において強い実験結果によって支持される。
これらのグラフ構造はReFNetとMulti-Similarity contrastive loss関数を組み合わせることでさらに強化される。
精製器融合ネットワークのモジュラー性は、異なる核融合アーキテクチャと容易に組み合わせることができ、さらに、ラベルなしデータセットの事前トレーニングに精製器ステップを適用でき、教師なしデータを利用して性能を向上させることができる。
3つのデータセット上の精錬機融合ネットワークのパワーを実証し,ラベル付きデータのほんの一部で性能を維持できることを示した。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss
via Meta-Learning [17.91346343984845]
メタラーニングに基づく統合画像融合フレームワークReFusionを導入する。
ReFusionはパラメータ化された損失関数を採用し、特定のシナリオとタスクに応じてトレーニングフレームワークによって動的に調整される。
赤外線可視、医療、マルチフォーカス、マルチ露光画像融合など、様々なタスクに適応することができる。
論文 参考訳(メタデータ) (2023-12-13T07:40:39Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - ScaleVLAD: Improving Multimodal Sentiment Analysis via Multi-Scale
Fusion of Locally Descriptors [15.042741192427334]
本稿では,テキスト,ビデオ,オーディオからマルチスケール表現を収集する「スケールVLAD」という融合モデルを提案する。
IEMOCAP、MOSI、MOSEIの3つの一般的な感情分析ベンチマークの実験は、ベースラインよりも大幅に向上した。
論文 参考訳(メタデータ) (2021-12-02T16:09:33Z) - Multi-modal land cover mapping of remote sensing images using pyramid
attention and gated fusion networks [20.66034058363032]
本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。
PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。
GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
論文 参考訳(メタデータ) (2021-11-06T10:01:01Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Memory based fusion for multi-modal deep learning [39.29589204750581]
メモリベースのAttentive Fusionレイヤは、現在の機能と長期依存の両方をデータに組み込むことで、モードをフューズする。
データに現在の特徴と長期的依存関係の両方を組み込むことで、モデムを融合するメモリベースのアテンティブフュージョン層を新たに提案する。
論文 参考訳(メタデータ) (2020-07-16T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。