論文の概要: Progressive Fusion for Multimodal Integration
- arxiv url: http://arxiv.org/abs/2209.00302v1
- Date: Thu, 1 Sep 2022 09:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:20:46.433390
- Title: Progressive Fusion for Multimodal Integration
- Title(参考訳): マルチモーダル統合のためのプログレッシブフュージョン
- Authors: Shiv Shankar, Laure Thompson, Madalina Fiterau
- Abstract要約: 本稿では,後期融合表現の問題を緩和する,プログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。
提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。
- 参考スコア(独自算出の注目度): 12.94175198001421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integration of multimodal information from various sources has been shown to
boost the performance of machine learning models and thus has received
increased attention in recent years. Often such models use deep
modality-specific networks to obtain unimodal features which are combined to
obtain "late-fusion" representations. However, these designs run the risk of
information loss in the respective unimodal pipelines. On the other hand,
"early-fusion" methodologies, which combine features early, suffer from the
problems associated with feature heterogeneity and high sample complexity. In
this work, we present an iterative representation refinement approach, called
Progressive Fusion, which mitigates the issues with late fusion
representations. Our model-agnostic technique introduces backward connections
that make late stage fused representations available to early layers, improving
the expressiveness of the representations at those stages, while retaining the
advantages of late fusion designs. We test Progressive Fusion on tasks
including affective sentiment detection, multimedia analysis, and time series
fusion with different models, demonstrating its versatility. We show that our
approach consistently improves performance, for instance attaining a 5%
reduction in MSE and 40% improvement in robustness on multimodal time series
prediction.
- Abstract(参考訳): さまざまなソースからのマルチモーダル情報の統合は、機械学習モデルのパフォーマンスを高めることが示されており、近年は注目を集めている。
このようなモデルは、しばしばディープモダリティ特有のネットワークを使用して、"late-fusion"表現を得るために結合されるユニモーダルな特徴を得る。
しかし、これらの設計は、各単調パイプラインにおいて情報損失のリスクを負う。
一方で、早期に特徴を結合する「早期融合」手法は、特徴の多様性や高いサンプルの複雑さに関連する問題に苦しむ。
本研究では,後期融合表現の問題を緩和するプログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。
モデル非依存手法では,後期融合表現を初期層に利用可能とし,それらの段階で表現の表現性を改善しつつ,後期融合設計の利点を保ちながら,後方接続を導入する。
情緒的感情検出,マルチメディア分析,時系列融合といったタスクのプログレッシブ融合を異なるモデルでテストし,その汎用性を示す。
提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - MMLF: Multi-modal Multi-class Late Fusion for Object Detection with Uncertainty Estimation [13.624431305114564]
本稿では,マルチクラス検出が可能なレイトフュージョンのための先駆的マルチモーダル・マルチクラスレイトフュージョン法を提案する。
KITTI検証と公式テストデータセットで実施された実験は、大幅なパフォーマンス改善を示している。
我々のアプローチでは、不確実性分析を分類融合プロセスに組み込んで、モデルをより透明で信頼性の高いものにします。
論文 参考訳(メタデータ) (2024-10-11T11:58:35Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - UniCat: Crafting a Stronger Fusion Baseline for Multimodal
Re-Identification [0.9831489366502301]
遅延融合法は, 単独でモダリティを訓練する手法と比較して, 最適潜伏表現をしばしば生み出すことを示す。
この効果は主に、核融合の際の個々のモダリティに対するトレーニング目標の意図しない緩和によるものであると我々は主張する。
また,UniCat(uniCat)や,非modalバックボーン(unimodal backbones)の遅延アンサンブルが,複数のマルチモーダルReIDベンチマークで現在最先端の性能を上回っていることも確認した。
論文 参考訳(メタデータ) (2023-10-28T20:30:59Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。