論文の概要: Progressive Fusion for Multimodal Integration
- arxiv url: http://arxiv.org/abs/2209.00302v1
- Date: Thu, 1 Sep 2022 09:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:20:46.433390
- Title: Progressive Fusion for Multimodal Integration
- Title(参考訳): マルチモーダル統合のためのプログレッシブフュージョン
- Authors: Shiv Shankar, Laure Thompson, Madalina Fiterau
- Abstract要約: 本稿では,後期融合表現の問題を緩和する,プログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。
提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。
- 参考スコア(独自算出の注目度): 12.94175198001421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integration of multimodal information from various sources has been shown to
boost the performance of machine learning models and thus has received
increased attention in recent years. Often such models use deep
modality-specific networks to obtain unimodal features which are combined to
obtain "late-fusion" representations. However, these designs run the risk of
information loss in the respective unimodal pipelines. On the other hand,
"early-fusion" methodologies, which combine features early, suffer from the
problems associated with feature heterogeneity and high sample complexity. In
this work, we present an iterative representation refinement approach, called
Progressive Fusion, which mitigates the issues with late fusion
representations. Our model-agnostic technique introduces backward connections
that make late stage fused representations available to early layers, improving
the expressiveness of the representations at those stages, while retaining the
advantages of late fusion designs. We test Progressive Fusion on tasks
including affective sentiment detection, multimedia analysis, and time series
fusion with different models, demonstrating its versatility. We show that our
approach consistently improves performance, for instance attaining a 5%
reduction in MSE and 40% improvement in robustness on multimodal time series
prediction.
- Abstract(参考訳): さまざまなソースからのマルチモーダル情報の統合は、機械学習モデルのパフォーマンスを高めることが示されており、近年は注目を集めている。
このようなモデルは、しばしばディープモダリティ特有のネットワークを使用して、"late-fusion"表現を得るために結合されるユニモーダルな特徴を得る。
しかし、これらの設計は、各単調パイプラインにおいて情報損失のリスクを負う。
一方で、早期に特徴を結合する「早期融合」手法は、特徴の多様性や高いサンプルの複雑さに関連する問題に苦しむ。
本研究では,後期融合表現の問題を緩和するプログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。
モデル非依存手法では,後期融合表現を初期層に利用可能とし,それらの段階で表現の表現性を改善しつつ,後期融合設計の利点を保ちながら,後方接続を導入する。
情緒的感情検出,マルチメディア分析,時系列融合といったタスクのプログレッシブ融合を異なるモデルでテストし,その汎用性を示す。
提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。
関連論文リスト
- UniCat: Crafting a Stronger Fusion Baseline for Multimodal
Re-Identification [0.9831489366502301]
遅延融合法は, 単独でモダリティを訓練する手法と比較して, 最適潜伏表現をしばしば生み出すことを示す。
この効果は主に、核融合の際の個々のモダリティに対するトレーニング目標の意図しない緩和によるものであると我々は主張する。
また,UniCat(uniCat)や,非modalバックボーン(unimodal backbones)の遅延アンサンブルが,複数のマルチモーダルReIDベンチマークで現在最先端の性能を上回っていることも確認した。
論文 参考訳(メタデータ) (2023-10-28T20:30:59Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional
Emotion Recognition [57.766837326063346]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。