論文の概要: Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments
- arxiv url: http://arxiv.org/abs/2211.03587v1
- Date: Mon, 7 Nov 2022 14:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:17:40.228465
- Title: Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments
- Title(参考訳): 雑音環境下でのマルチモーダル表現学習のための汎用製品
- Authors: Abhinav Joshi and Naman Gupta and Jinang Shah and Binod Bhattarai and
Ashutosh Modi and Danail Stoyanov
- Abstract要約: 本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
- 参考スコア(独自算出の注目度): 18.14974353615421
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A real-world application or setting involves interaction between different
modalities (e.g., video, speech, text). In order to process the multimodal
information automatically and use it for an end application, Multimodal
Representation Learning (MRL) has emerged as an active area of research in
recent times. MRL involves learning reliable and robust representations of
information from heterogeneous sources and fusing them. However, in practice,
the data acquired from different sources are typically noisy. In some extreme
cases, a noise of large magnitude can completely alter the semantics of the
data leading to inconsistencies in the parallel multimodal data. In this paper,
we propose a novel method for multimodal representation learning in a noisy
environment via the generalized product of experts technique. In the proposed
method, we train a separate network for each modality to assess the credibility
of information coming from that modality, and subsequently, the contribution
from each modality is dynamically varied while estimating the joint
distribution. We evaluate our method on two challenging benchmarks from two
diverse domains: multimodal 3D hand-pose estimation and multimodal surgical
video segmentation. We attain state-of-the-art performance on both benchmarks.
Our extensive quantitative and qualitative evaluations show the advantages of
our method compared to previous approaches.
- Abstract(参考訳): 現実世界のアプリケーションや設定は、様々なモダリティ(例えば、ビデオ、スピーチ、テキスト)間の相互作用を含む。
マルチモーダル情報を自動的に処理してエンドアプリケーションに利用するために,近年,多モーダル表現学習(MRL)が研究の活発な領域として出現している。
MRLは、不均一なソースから情報の信頼性と堅牢な表現を学び、それらを融合させる。
しかし、実際には、異なるソースから取得したデータは一般に騒がしい。
極端なケースでは、大きな大きさのノイズがデータのセマンティクスを完全に変え、並列マルチモーダルデータの一貫性を損なうことがある。
本稿では,提案手法を用いて,雑音環境におけるマルチモーダル表現学習のための新しい手法を提案する。
提案手法では,そのモダリティから得られる情報の信頼性を評価するために,各モダリティに対して別々のネットワークを訓練し,その後,ジョイント分布を推定しながら、各モダリティからの貢献を動的に変化させる。
本手法は,マルチモーダル3次元ハンドポーズ推定とマルチモーダル手術ビデオセグメンテーションの2つの難解なベンチマークを用いて評価した。
両方のベンチマークで最先端のパフォーマンスを達成します。
定量的および定性的評価は,従来の手法と比較して,本手法の利点を示している。
関連論文リスト
- Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - DeCUR: decoupling common & unique representations for multimodal
self-supervision [23.44643489648528]
マルチモーダルな自己教師型学習のためのDecoupling Common and Unique Representations (DeCUR)を提案する。
モーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合するように訓練される。
シーン分類とセマンティックセグメンテーションの下流タスクにおける一貫した利点を示す。
論文 参考訳(メタデータ) (2023-09-11T08:35:23Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and
Applications [97.79283975518047]
複数のモーダルから共同で学習する多くの機械学習システムでは、マルチモーダル相互作用の性質を理解することが中心的な研究課題である。
我々は,この相互作用定量化の課題について,ラベル付き単調データのみを用いた半教師付き環境で検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は、マルチモーダル相互作用の量を定量化するための下界と上界の導出である。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations [27.855467591358018]
マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
論文 参考訳(メタデータ) (2022-10-31T16:14:18Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (2021-07-15T17:54:36Z) - Noise Estimation Using Density Estimation for Self-Supervised Multimodal
Learning [10.151012770913624]
マルチモーダルデータに対するノイズ推定は,マルチモーダル密度推定タスクに還元可能であることを示す。
我々は,我々のノイズ推定を広範に統合し,最先端の性能に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2020-03-06T13:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。