論文の概要: Progressive Fusion for Multimodal Integration
- arxiv url: http://arxiv.org/abs/2209.00302v1
- Date: Thu, 1 Sep 2022 09:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:20:46.433390
- Title: Progressive Fusion for Multimodal Integration
- Title(参考訳): マルチモーダル統合のためのプログレッシブフュージョン
- Authors: Shiv Shankar, Laure Thompson, Madalina Fiterau
- Abstract要約: 本稿では,後期融合表現の問題を緩和する,プログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。
提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。
- 参考スコア(独自算出の注目度): 12.94175198001421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integration of multimodal information from various sources has been shown to
boost the performance of machine learning models and thus has received
increased attention in recent years. Often such models use deep
modality-specific networks to obtain unimodal features which are combined to
obtain "late-fusion" representations. However, these designs run the risk of
information loss in the respective unimodal pipelines. On the other hand,
"early-fusion" methodologies, which combine features early, suffer from the
problems associated with feature heterogeneity and high sample complexity. In
this work, we present an iterative representation refinement approach, called
Progressive Fusion, which mitigates the issues with late fusion
representations. Our model-agnostic technique introduces backward connections
that make late stage fused representations available to early layers, improving
the expressiveness of the representations at those stages, while retaining the
advantages of late fusion designs. We test Progressive Fusion on tasks
including affective sentiment detection, multimedia analysis, and time series
fusion with different models, demonstrating its versatility. We show that our
approach consistently improves performance, for instance attaining a 5%
reduction in MSE and 40% improvement in robustness on multimodal time series
prediction.
- Abstract(参考訳): さまざまなソースからのマルチモーダル情報の統合は、機械学習モデルのパフォーマンスを高めることが示されており、近年は注目を集めている。
このようなモデルは、しばしばディープモダリティ特有のネットワークを使用して、"late-fusion"表現を得るために結合されるユニモーダルな特徴を得る。
しかし、これらの設計は、各単調パイプラインにおいて情報損失のリスクを負う。
一方で、早期に特徴を結合する「早期融合」手法は、特徴の多様性や高いサンプルの複雑さに関連する問題に苦しむ。
本研究では,後期融合表現の問題を緩和するプログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。
モデル非依存手法では,後期融合表現を初期層に利用可能とし,それらの段階で表現の表現性を改善しつつ,後期融合設計の利点を保ちながら,後方接続を導入する。
情緒的感情検出,マルチメディア分析,時系列融合といったタスクのプログレッシブ融合を異なるモデルでテストし,その汎用性を示す。
提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。
関連論文リスト
- Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional
Emotion Recognition [57.766837326063346]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Cross Attentional Audio-Visual Fusion for Dimensional Emotion
Recognition [16.00029392324104]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。
本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。
その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文 参考訳(メタデータ) (2021-11-09T16:01:56Z) - Cross Attention-guided Dense Network for Images Fusion [6.722525091148737]
本稿では,新しいクロスアテンション誘導画像融合ネットワークを提案する。
マルチモーダル画像融合、マルチ露光画像融合、マルチフォーカス画像融合のための統一的で教師なしのフレームワークである。
以上の結果から,提案モデルが定量的かつ質的に,最先端のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-23T14:22:47Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。