論文の概要: Understanding Multimodal Contrastive Learning and Incorporating Unpaired
Data
- arxiv url: http://arxiv.org/abs/2302.06232v1
- Date: Mon, 13 Feb 2023 10:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:07:47.440765
- Title: Understanding Multimodal Contrastive Learning and Incorporating Unpaired
Data
- Title(参考訳): マルチモーダルコントラスト学習の理解と非ペアデータの導入
- Authors: Ryumei Nakada, Halil Ibrahim Gulluk, Zhun Deng, Wenlong Ji, James Zou,
Linjun Zhang
- Abstract要約: マルチモーダル・コントラッシブ・ラーニング(MMCL)における非線形損失関数の一般クラスを示す。
MMCLの特徴学習能力は,各モダリティに適用される一助的コントラスト学習能力よりも優れていることを示す。
追加の未ペアデータにアクセスできる場合、追加の未ペアデータを含む新たなMMCL損失を提案する。
- 参考スコア(独自算出の注目度): 19.72282903349282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-supervised vision models have recently attracted great attention in
computer vision. A common approach to build such models is to use contrastive
learning on paired data across the two modalities, as exemplified by
Contrastive Language-Image Pre-Training (CLIP). In this paper, under linear
representation settings, (i) we initiate the investigation of a general class
of nonlinear loss functions for multimodal contrastive learning (MMCL)
including CLIP loss and show its connection to singular value decomposition
(SVD). Namely, we show that each step of loss minimization by gradient descent
can be seen as performing SVD on a contrastive cross-covariance matrix. Based
on this insight, (ii) we analyze the performance of MMCL. We quantitatively
show that the feature learning ability of MMCL can be better than that of
unimodal contrastive learning applied to each modality even under the presence
of wrongly matched pairs. This characterizes the robustness of MMCL to noisy
data. Furthermore, when we have access to additional unpaired data, (iii) we
propose a new MMCL loss that incorporates additional unpaired datasets. We show
that the algorithm can detect the ground-truth pairs and improve performance by
fully exploiting unpaired datasets. The performance of the proposed algorithm
was verified by numerical experiments.
- Abstract(参考訳): 言語による視覚モデルは最近コンピュータビジョンに大きな注目を集めている。
このようなモデルを構築するための一般的なアプローチは、Contrastive Language- Image Pre-Training (CLIP) の例のように、2つのモードをまたいだペアデータに対してコントラッシブ学習を使用することである。
本稿では,線形表現設定について述べる。
(i)CLIP損失を含むマルチモーダルコントラスト学習(MMCL)における非線形損失関数の一般クラスの調査を開始し,特異値分解(SVD)との関連を示す。
すなわち、勾配降下による損失最小化の各ステップは、対照的な相互共分散行列上でSVDを行うように見える。
この洞察に基づいて
(2)MMCLの性能を解析する。
その結果,mmclの特徴学習能力は,不一致ペアの存在下でも各モダリティに適用された単調なコントラスト学習能力よりも優れていることが示された。
これはMMCLのノイズデータに対する堅牢性を特徴付ける。
さらに、追加の未ペアデータにアクセスできれば、
(iii)追加の未ペアデータセットを組み込んだ新しいMMCL損失を提案する。
提案アルゴリズムは,未使用のデータセットをフル活用することにより,地対検出と性能向上を実現する。
提案アルゴリズムの性能を数値実験により検証した。
関連論文リスト
- Learning the Unlearned: Mitigating Feature Suppression in Contrastive
Learning [47.95399695465355]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - Spectral Temporal Contrastive Learning [16.071429029573682]
この研究は、データのシーケンシャルな構造を用いて正のペアを定義する時間的コントラッシブな学習環境に関するものである。
本研究では,一様定常分布を持つ時間均質可逆マルコフ連鎖から得られる状態グラフに基づく人口減少について論じる。
論文 参考訳(メタデータ) (2023-12-01T22:48:52Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Evolving parametrized Loss for Image Classification Learning on Small
Datasets [1.4685355149711303]
本稿ではメタロスネットワーク(MLN)と呼ばれるパラメタ化損失関数の進化のためのメタラーニング手法を提案する。
本手法では,MLNを識別対象関数として分類学習の枠組みに組み込む。
実験の結果,MLNは古典的クロスエントロピー誤差や平均二乗誤差と比較して,一般化を効果的に改善した。
論文 参考訳(メタデータ) (2021-03-15T10:00:18Z) - Performance Indicator in Multilinear Compressive Learning [106.12874293597754]
マルチリニア圧縮学習(MCL)フレームワークは,多次元信号を扱う際の知覚と学習のステップを効率的に最適化するために提案された。
本稿では,入力信号の分解能,圧縮された測定値数,MCLの学習性能の関係を解析する。
論文 参考訳(メタデータ) (2020-09-22T11:27:50Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。