論文の概要: Multimodal Fusion Refiner Networks
- arxiv url: http://arxiv.org/abs/2104.03435v1
- Date: Thu, 8 Apr 2021 00:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 02:20:58.099196
- Title: Multimodal Fusion Refiner Networks
- Title(参考訳): マルチモーダル核融合精製ネットワーク
- Authors: Sethuraman Sankaran, David Yang, Ser-Nam Lim
- Abstract要約: Refiner Fusion Network (ReFNet) を開発し, 融合モジュールが強い一助表現と強いマルチモーダル表現を組み合わせられるようにした。
ReFNetは、融合ネットワークと復号/復号モジュールを結合し、モダリティ中心の責任条件を課す。
我々はRefiner Fusion Networkがマルチモーダルトランスなどの強力なベースライン融合モジュールの性能を向上させることを実証した。
- 参考スコア(独自算出の注目度): 22.93868090722948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tasks that rely on multi-modal information typically include a fusion module
that combines information from different modalities. In this work, we develop a
Refiner Fusion Network (ReFNet) that enables fusion modules to combine strong
unimodal representation with strong multimodal representations. ReFNet combines
the fusion network with a decoding/defusing module, which imposes a
modality-centric responsibility condition. This approach addresses a big gap in
existing multimodal fusion frameworks by ensuring that both unimodal and fused
representations are strongly encoded in the latent fusion space. We demonstrate
that the Refiner Fusion Network can improve upon performance of powerful
baseline fusion modules such as multimodal transformers. The refiner network
enables inducing graphical representations of the fused embeddings in the
latent space, which we prove under certain conditions and is supported by
strong empirical results in the numerical experiments. These graph structures
are further strengthened by combining the ReFNet with a Multi-Similarity
contrastive loss function. The modular nature of Refiner Fusion Network lends
itself to be combined with different fusion architectures easily, and in
addition, the refiner step can be applied for pre-training on unlabeled
datasets, thus leveraging unsupervised data towards improving performance. We
demonstrate the power of Refiner Fusion Networks on three datasets, and further
show that they can maintain performance with only a small fraction of labeled
data.
- Abstract(参考訳): マルチモーダル情報に依存するタスクは通常、異なるモーダル情報を組み合わせた融合モジュールを含む。
本研究では,強いユニモーダル表現と強いマルチモーダル表現を組み合わせたrefnet(refnet)を開発した。
ReFNetは、融合ネットワークと復号/復号モジュールを結合し、モダリティ中心の責任条件を課す。
このアプローチは、既存のマルチモーダル融合フレームワークにおける大きなギャップに対処し、非モーダル表現と融合表現の両方が潜在核融合空間で強くエンコードされることを保証する。
Refiner Fusion Networkはマルチモーダルトランスなどの強力なベースライン融合モジュールの性能を向上させることができることを示す。
精細化ネットワークは, 潜伏空間に融合した埋め込みのグラフィカルな表現を誘導し, 一定の条件下で証明し, 数値実験において強い実験結果によって支持される。
これらのグラフ構造はReFNetとMulti-Similarity contrastive loss関数を組み合わせることでさらに強化される。
精製器融合ネットワークのモジュラー性は、異なる核融合アーキテクチャと容易に組み合わせることができ、さらに、ラベルなしデータセットの事前トレーニングに精製器ステップを適用でき、教師なしデータを利用して性能を向上させることができる。
3つのデータセット上の精錬機融合ネットワークのパワーを実証し,ラベル付きデータのほんの一部で性能を維持できることを示した。
関連論文リスト
- ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss
via Meta-Learning [17.91346343984845]
メタラーニングに基づく統合画像融合フレームワークReFusionを導入する。
ReFusionはパラメータ化された損失関数を採用し、特定のシナリオとタスクに応じてトレーニングフレームワークによって動的に調整される。
赤外線可視、医療、マルチフォーカス、マルチ露光画像融合など、様々なタスクに適応することができる。
論文 参考訳(メタデータ) (2023-12-13T07:40:39Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Equivariant Multi-Modality Image Fusion [142.84362457655516]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然像が特定の変換に等しくなるという以前の知識に基づいている。
実験により,赤外可視画像と医用画像の両方に対して高品質な融合結果が得られた。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - LRRNet: A Novel Representation Learning Guided Fusion Network for
Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。
特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。
この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文 参考訳(メタデータ) (2023-04-11T12:11:23Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - ScaleVLAD: Improving Multimodal Sentiment Analysis via Multi-Scale
Fusion of Locally Descriptors [15.042741192427334]
本稿では,テキスト,ビデオ,オーディオからマルチスケール表現を収集する「スケールVLAD」という融合モデルを提案する。
IEMOCAP、MOSI、MOSEIの3つの一般的な感情分析ベンチマークの実験は、ベースラインよりも大幅に向上した。
論文 参考訳(メタデータ) (2021-12-02T16:09:33Z) - Multi-modal land cover mapping of remote sensing images using pyramid
attention and gated fusion networks [20.66034058363032]
本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。
PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。
GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
論文 参考訳(メタデータ) (2021-11-06T10:01:01Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Memory based fusion for multi-modal deep learning [39.29589204750581]
メモリベースのAttentive Fusionレイヤは、現在の機能と長期依存の両方をデータに組み込むことで、モードをフューズする。
データに現在の特徴と長期的依存関係の両方を組み込むことで、モデムを融合するメモリベースのアテンティブフュージョン層を新たに提案する。
論文 参考訳(メタデータ) (2020-07-16T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。