論文の概要: Factorized Contrastive Learning: Going Beyond Multi-view Redundancy
- arxiv url: http://arxiv.org/abs/2306.05268v2
- Date: Mon, 30 Oct 2023 05:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:42:35.891318
- Title: Factorized Contrastive Learning: Going Beyond Multi-view Redundancy
- Title(参考訳): 要因的コントラスト学習 - マルチビュー冗長性を超えて
- Authors: Paul Pu Liang, Zihao Deng, Martin Ma, James Zou, Louis-Philippe
Morency, Ruslan Salakhutdinov
- Abstract要約: 本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 116.25342513407173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a wide range of multimodal tasks, contrastive learning has become a
particularly appealing approach since it can successfully learn representations
from abundant unlabeled data with only pairing information (e.g., image-caption
or video-audio pairs). Underpinning these approaches is the assumption of
multi-view redundancy - that shared information between modalities is necessary
and sufficient for downstream tasks. However, in many real-world settings,
task-relevant information is also contained in modality-unique regions:
information that is only present in one modality but still relevant to the
task. How can we learn self-supervised multimodal representations to capture
both shared and unique information relevant to downstream tasks? This paper
proposes FactorCL, a new multimodal representation learning method to go beyond
multi-view redundancy. FactorCL is built from three new contributions: (1)
factorizing task-relevant information into shared and unique representations,
(2) capturing task-relevant information via maximizing MI lower bounds and
removing task-irrelevant information via minimizing MI upper bounds, and (3)
multimodal data augmentations to approximate task relevance without labels. On
large-scale real-world datasets, FactorCL captures both shared and unique
information and achieves state-of-the-art results on six benchmarks
- Abstract(参考訳): 多様なマルチモーダルタスクにおいて、コントラスト学習は、ペアリング情報(画像キャプチャやビデオオーディオペアなど)のみを含む豊富なラベルなしデータから表現をうまく学習できるため、特に魅力的なアプローチとなっている。
これらのアプローチを支えるのは、マルチビュー冗長性(multi-view redundancy)の仮定である。
しかし、多くの現実の環境では、タスク関連情報はモダリティ・ユニクティックな領域にも含まれている: 1つのモダリティにのみ存在するが、タスクに関係している情報である。
下流タスクに関連する共有情報とユニークな情報の両方をキャプチャするために、自己組織化されたマルチモーダル表現をどのように学べるか?
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
factorclは,(1)タスク関連情報を共有表現とユニークな表現に分解する,(2)mi下限を最大化しタスク関連情報を取得し,mi上限を最小化することでタスク関連情報を削除する,(3)ラベル無しでタスク関連情報を近似するマルチモーダルデータ拡張,の3つの新たなコントリビューションから構築されている。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、6つのベンチマークで最先端の結果を達成する
関連論文リスト
- Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations [27.855467591358018]
マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
論文 参考訳(メタデータ) (2022-10-31T16:14:18Z) - Sequential Cross Attention Based Multi-task Learning [22.430705836627148]
本稿では,タスクのマルチスケール機能にアテンション機構を適用することで,情報伝達を効果的に行う新しいアーキテクチャを提案する。
提案手法は,NYUD-v2およびPASCAL-Contextデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-06T14:17:33Z) - Context-Aware Multi-Task Learning for Traffic Scene Recognition in
Autonomous Vehicles [10.475998113861895]
マルチタスク学習ネットワークを採用することにより,タスク固有表現と共有表現を協調的に学習するアルゴリズムを提案する。
大規模データセットHSDの実験は、最先端手法よりもネットワークの有効性と優位性を実証している。
論文 参考訳(メタデータ) (2020-04-03T03:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。