論文の概要: Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments
- arxiv url: http://arxiv.org/abs/2211.03587v1
- Date: Mon, 7 Nov 2022 14:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:17:40.228465
- Title: Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments
- Title(参考訳): 雑音環境下でのマルチモーダル表現学習のための汎用製品
- Authors: Abhinav Joshi and Naman Gupta and Jinang Shah and Binod Bhattarai and
Ashutosh Modi and Danail Stoyanov
- Abstract要約: 本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
- 参考スコア(独自算出の注目度): 18.14974353615421
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A real-world application or setting involves interaction between different
modalities (e.g., video, speech, text). In order to process the multimodal
information automatically and use it for an end application, Multimodal
Representation Learning (MRL) has emerged as an active area of research in
recent times. MRL involves learning reliable and robust representations of
information from heterogeneous sources and fusing them. However, in practice,
the data acquired from different sources are typically noisy. In some extreme
cases, a noise of large magnitude can completely alter the semantics of the
data leading to inconsistencies in the parallel multimodal data. In this paper,
we propose a novel method for multimodal representation learning in a noisy
environment via the generalized product of experts technique. In the proposed
method, we train a separate network for each modality to assess the credibility
of information coming from that modality, and subsequently, the contribution
from each modality is dynamically varied while estimating the joint
distribution. We evaluate our method on two challenging benchmarks from two
diverse domains: multimodal 3D hand-pose estimation and multimodal surgical
video segmentation. We attain state-of-the-art performance on both benchmarks.
Our extensive quantitative and qualitative evaluations show the advantages of
our method compared to previous approaches.
- Abstract(参考訳): 現実世界のアプリケーションや設定は、様々なモダリティ(例えば、ビデオ、スピーチ、テキスト)間の相互作用を含む。
マルチモーダル情報を自動的に処理してエンドアプリケーションに利用するために,近年,多モーダル表現学習(MRL)が研究の活発な領域として出現している。
MRLは、不均一なソースから情報の信頼性と堅牢な表現を学び、それらを融合させる。
しかし、実際には、異なるソースから取得したデータは一般に騒がしい。
極端なケースでは、大きな大きさのノイズがデータのセマンティクスを完全に変え、並列マルチモーダルデータの一貫性を損なうことがある。
本稿では,提案手法を用いて,雑音環境におけるマルチモーダル表現学習のための新しい手法を提案する。
提案手法では,そのモダリティから得られる情報の信頼性を評価するために,各モダリティに対して別々のネットワークを訓練し,その後,ジョイント分布を推定しながら、各モダリティからの貢献を動的に変化させる。
本手法は,マルチモーダル3次元ハンドポーズ推定とマルチモーダル手術ビデオセグメンテーションの2つの難解なベンチマークを用いて評価した。
両方のベンチマークで最先端のパフォーマンスを達成します。
定量的および定性的評価は,従来の手法と比較して,本手法の利点を示している。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method [3.0903319879656084]
本稿では,マルチモーダル情報の融合に革命をもたらす機能アライメントに対する革新的なアプローチを提案する。
提案手法では,異なるモードをまたいだ特徴表現の遠隔的変位と拡張の新たな反復的プロセスを用いて,共有特徴空間内の一貫性のある統一表現を導出する。
論文 参考訳(メタデータ) (2023-06-29T13:49:06Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations [27.855467591358018]
マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
論文 参考訳(メタデータ) (2022-10-31T16:14:18Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Noise Estimation Using Density Estimation for Self-Supervised Multimodal
Learning [10.151012770913624]
マルチモーダルデータに対するノイズ推定は,マルチモーダル密度推定タスクに還元可能であることを示す。
我々は,我々のノイズ推定を広範に統合し,最先端の性能に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2020-03-06T13:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。