論文の概要: Noise Estimation Using Density Estimation for Self-Supervised Multimodal
Learning
- arxiv url: http://arxiv.org/abs/2003.03186v3
- Date: Thu, 10 Dec 2020 14:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:29:02.739212
- Title: Noise Estimation Using Density Estimation for Self-Supervised Multimodal
Learning
- Title(参考訳): 自己監督型マルチモーダル学習における密度推定を用いた雑音推定
- Authors: Elad Amrani, Rami Ben-Ari, Daniel Rotman and Alex Bronstein
- Abstract要約: マルチモーダルデータに対するノイズ推定は,マルチモーダル密度推定タスクに還元可能であることを示す。
我々は,我々のノイズ推定を広範に統合し,最先端の性能に匹敵する結果が得られることを実証する。
- 参考スコア(独自算出の注目度): 10.151012770913624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key factors of enabling machine learning models to comprehend and
solve real-world tasks is to leverage multimodal data. Unfortunately,
annotation of multimodal data is challenging and expensive. Recently,
self-supervised multimodal methods that combine vision and language were
proposed to learn multimodal representations without annotation. However, these
methods often choose to ignore the presence of high levels of noise and thus
yield sub-optimal results. In this work, we show that the problem of noise
estimation for multimodal data can be reduced to a multimodal density
estimation task. Using multimodal density estimation, we propose a noise
estimation building block for multimodal representation learning that is based
strictly on the inherent correlation between different modalities. We
demonstrate how our noise estimation can be broadly integrated and achieves
comparable results to state-of-the-art performance on five different benchmark
datasets for two challenging multimodal tasks: Video Question Answering and
Text-To-Video Retrieval. Furthermore, we provide a theoretical probabilistic
error bound substantiating our empirical results and analyze failure cases.
Code: https://github.com/elad-amrani/ssml.
- Abstract(参考訳): 機械学習モデルが現実のタスクを理解し、解決できるようにする重要な要因の1つは、マルチモーダルデータを活用することである。
残念ながら、マルチモーダルデータのアノテーションは困難で高価です。
近年,アノテーションなしでマルチモーダル表現を学ぶために,視覚と言語を組み合わせた自己教師付きマルチモーダル手法が提案されている。
しかし、これらの手法は高レベルのノイズの存在を無視することが多いため、最適ではない結果が得られる。
本研究では,マルチモーダルデータに対するノイズ推定の問題をマルチモーダル密度推定タスクに還元できることを示す。
マルチモーダル密度推定を用いて,異なるモーダル性間の固有相関を厳密に基礎としたマルチモーダル表現学習のための雑音推定構築ブロックを提案する。
提案手法は,映像質問応答とテキスト・トゥ・ビデオ検索の2つの課題に対して,5つのベンチマークデータセットにおける最先端性能に匹敵する結果が得られることを示す。
さらに,実験結果を裏付ける理論的確率的誤差境界を提供し,故障事例を解析する。
コード: https://github.com/elad-amrani/ssml。
関連論文リスト
- Deep Multimodal Learning with Missing Modality: A Survey [12.873458712005037]
欠落したモダリティを扱うために設計されたマルチモーダル学習技術は、これを緩和することができる。
本調査は,Multimodal Learning with Missing Modality (MLMM)の最近の進歩を概観する。
論文 参考訳(メタデータ) (2024-09-12T08:15:39Z) - DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data [16.501973201535442]
我々は,部分ラベル付きマルチタスクの高密度予測を画素レベルの分解問題として再検討する。
本稿では,DiffusionMTLと呼ばれる新しいマルチタスク・デノナイズ・フレームワークを提案する。
タスク予測や特徴写像の潜在的なノイズ分布をモデル化するために、共用拡散・雑音化パラダイムを設計する。
論文 参考訳(メタデータ) (2024-03-22T17:59:58Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - On Robustness in Multimodal Learning [75.03719000820388]
マルチモーダル学習は、ビデオ、オーディオ、テキストなどの複数の入力モダリティの学習として定義される。
本稿では,一般的なマルチモーダル表現学習手法の体系的解析を行うためのマルチモーダルロバストネスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:02:07Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。