論文の概要: Multimodal Learning Without Labeled Multimodal Data: Guarantees and
Applications
- arxiv url: http://arxiv.org/abs/2306.04539v1
- Date: Wed, 7 Jun 2023 15:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:32:14.983648
- Title: Multimodal Learning Without Labeled Multimodal Data: Guarantees and
Applications
- Title(参考訳): ラベル付きマルチモーダルデータを持たないマルチモーダル学習:保証と応用
- Authors: Paul Pu Liang, Chun Kai Ling, Yun Cheng, Alex Obolenskiy, Yudong Liu,
Rohan Pandey, Alex Wilf, Louis-Philippe Morency, Ruslan Salakhutdinov
- Abstract要約: 複数のモーダルから共同で学習する多くの機械学習システムでは、マルチモーダル相互作用の性質を理解することが中心的な研究課題である。
我々は,この相互作用定量化の課題について,ラベル付き単調データのみを用いた半教師付き環境で検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は、マルチモーダル相互作用の量を定量化するための下界と上界の導出である。
- 参考スコア(独自算出の注目度): 97.79283975518047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many machine learning systems that jointly learn from multiple modalities,
a core research question is to understand the nature of multimodal
interactions: the emergence of new task-relevant information during learning
from both modalities that was not present in either alone. We study this
challenge of interaction quantification in a semi-supervised setting with only
labeled unimodal data and naturally co-occurring multimodal data (e.g.,
unlabeled images and captions, video and corresponding audio) but when labeling
them is time-consuming. Using a precise information-theoretic definition of
interactions, our key contributions are the derivations of lower and upper
bounds to quantify the amount of multimodal interactions in this
semi-supervised setting. We propose two lower bounds based on the amount of
shared information between modalities and the disagreement between separately
trained unimodal classifiers, and derive an upper bound through connections to
approximate algorithms for min-entropy couplings. We validate these estimated
bounds and show how they accurately track true interactions. Finally, two
semi-supervised multimodal applications are explored based on these theoretical
results: (1) analyzing the relationship between multimodal performance and
estimated interactions, and (2) self-supervised learning that embraces
disagreement between modalities beyond agreement as is typically done.
- Abstract(参考訳): 複数のモーダルから共同で学習する多くの機械学習システムにおいて、中心となる研究課題はマルチモーダル相互作用の性質を理解することである。
ラベル付き一助データのみと自然に共起するマルチモーダルデータ(例えば、ラベル付き画像やキャプション、ビデオ、対応するオーディオ)を用いた半教師付き環境でのインタラクション定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、この半教師付き環境でのマルチモーダル相互作用の量を定量化するための下界と上界の導出である。
モーダル性間の共有情報量と個別に訓練された単項分類器間の不一致量に基づいて2つの下界を提案し、最小エントロピー結合の近似アルゴリズムに接続を通して上界を導出する。
これらの推定境界を検証し、実際の相互作用を正確に追跡する方法を示す。
最後に,2つの半教師付きマルチモーダル・アプリケーションについて,(1)マルチモーダル性能と推定相互作用の関係を解析し,(2)合意を超えるモダリティの相違を考慮した自己教師付き学習を行った。
関連論文リスト
- MMOE: Mixture of Multimodal Interaction Experts [115.20477067767399]
MMOEはマルチモーダルインタラクションの専門家の混在を指す。
本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。
実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。