論文の概要: A Principled Framework for Multi-View Contrastive Learning
- arxiv url: http://arxiv.org/abs/2507.06979v1
- Date: Wed, 09 Jul 2025 16:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.66078
- Title: A Principled Framework for Multi-View Contrastive Learning
- Title(参考訳): マルチビューコントラスト学習のための原則的フレームワーク
- Authors: Panagiotis Koromilas, Efthymios Georgiou, Giorgos Bouritsas, Theodoros Giannakopoulos, Mihalis A. Nicolaou, Yannis Panagakis,
- Abstract要約: コントラスト学習(CL)は、自己監督学習(SSL)における主要なパラダイムである
現在のCLメソッドは、異なるペアの目的を単純に集約することで、追加のビューを亜最適に処理する。
本稿では,MV-InfoNCE と MV-DHEL の2つの新しい損失関数を用いて,これらの制限に対処する。
- 参考スコア(独自算出の注目度): 23.97266762318814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Learning (CL), a leading paradigm in Self-Supervised Learning (SSL), typically relies on pairs of data views generated through augmentation. While multiple augmentations per instance (more than two) improve generalization in supervised learning, current CL methods handle additional views suboptimally by simply aggregating different pairwise objectives. This approach suffers from four critical limitations: (L1) it utilizes multiple optimization terms per data point resulting to conflicting objectives, (L2) it fails to model all interactions across views and data points, (L3) it inherits fundamental limitations (e.g. alignment-uniformity coupling) from pairwise CL losses, and (L4) it prevents fully realizing the benefits of increased view multiplicity observed in supervised settings. We address these limitations through two novel loss functions: MV-InfoNCE, which extends InfoNCE to incorporate all possible view interactions simultaneously in one term per data point, and MV-DHEL, which decouples alignment from uniformity across views while scaling interaction complexity with view multiplicity. Both approaches are theoretically grounded - we prove they asymptotically optimize for alignment of all views and uniformity, providing principled extensions to multi-view contrastive learning. Our empirical results on ImageNet1K and three other datasets demonstrate that our methods consistently outperform existing multi-view approaches and effectively scale with increasing view multiplicity. We also apply our objectives to multimodal data and show that, in contrast to other contrastive objectives, they can scale beyond just two modalities. Most significantly, ablation studies reveal that MV-DHEL with five or more views effectively mitigates dimensionality collapse by fully utilizing the embedding space, thereby delivering multi-view benefits observed in supervised learning.
- Abstract(参考訳): 自己監視学習(SSL)における主要なパラダイムであるコントラスト学習(CL)は、通常、拡張によって生成されたデータビューのペアに依存します。
インスタンスあたりの複数の拡張(2つ以上の)は教師付き学習における一般化を改善するが、現在のCLメソッドは、異なるペアワイズ目的を単純に集約することで、追加のビューを過度に処理する。
このアプローチには、4つの重要な制限がある: (L1) データポイントあたりの複数の最適化項を利用して、矛盾する目的を生じる (L2) ビューとデータポイントをまたいだすべてのインタラクションをモデル化できない (L3) ペアのCL損失から基本的な制限(例えばアライメントと一様結合)を継承し、 (L4) 教師付き設定で観察されるビューの多重度の増加の利点を完全に実現できない。
MV-InfoNCEは、InfoNCEを拡張し、1つのデータポイント当たりの1つの項で全ての可能なビューインタラクションを同時に組み込むことができ、MV-DHELはビュー全体の均一性から分離し、ビューの多重度と相互作用の複雑さをスケーリングする。
両アプローチは理論的に根拠づけられており、すべてのビューと一様性のアライメントを漸近的に最適化し、マルチビューのコントラスト学習への原則化された拡張を提供する。
ImageNet1Kと他の3つのデータセットに対する実験結果から、既存のマルチビューアプローチを一貫して上回り、ビューの多重度を増大させて効果的にスケールできることが示されている。
また、我々の目的をマルチモーダルデータに適用し、他の対照的な目的とは対照的に、2つのモダリティを超えてスケールできることを示します。
最も顕著なアブレーション研究は、5つ以上の視点を持つMV-DHELが埋め込み空間を十分に活用することで次元崩壊を効果的に軽減し、教師あり学習において観察される多視点の利点を提供することを示した。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Balanced Multi-view Clustering [56.17836963920012]
マルチビュークラスタリング(MvC)は、さまざまなビューからの情報を統合して、基盤となるデータ構造をキャプチャするモデルの能力を高めることを目的としている。
MvCで広く使われているジョイントトレーニングパラダイムは、多視点情報を十分に活用していない可能性がある。
本稿では,ビュー固有のコントラスト正規化(VCR)を導入し,各ビューの最適化を最適化する新しいマルチビュークラスタリング(BMvC)手法を提案する。
論文 参考訳(メタデータ) (2025-01-05T14:42:47Z) - DWCL: Dual-Weighted Contrastive Learning for Multi-View Clustering [9.945837095280256]
マルチビュークラスタリングのためのDWCL(Dual-Weighted Contrastive Learning)と呼ばれる新しいモデルを提案する。
具体的には、信頼性の低いクロスビューの影響を軽減するために、革新的なBest-Other(B-O)コントラスト機構を導入する。
ビュー品質重みとビュー差重みを反映し、ビュー品質重みを両立させる2重み付け戦略を開発した。
論文 参考訳(メタデータ) (2024-11-26T11:57:20Z) - Partial Multi-View Clustering via Meta-Learning and Contrastive Feature Alignment [13.511433241138702]
部分的マルチビュークラスタリング (PVC) は、実世界のアプリケーションにおけるデータ分析における実用的な研究課題である。
既存のクラスタリング手法は、不完全なビューを効果的に扱うのに苦労し、サブ最適クラスタリング性能に繋がる。
非完全多視点データにおける潜在的特徴の一貫性を最大化することを目的とした、コントラスト学習に基づく新しい双対最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T19:16:01Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - URRL-IMVC: Unified and Robust Representation Learning for Incomplete Multi-View Clustering [28.776476995363048]
不完全なマルチビュークラスタリングのための統一表現学習(URRL-IMVC)を提案する。
URRL-IMVCは、複数のビューや隣接するサンプルからの情報を統合することで、失われた状態を見るのに堅牢な統合埋め込みを直接学習する。
提案するURRL-IMVCフレームワークを様々なベンチマークデータセット上で広範囲に評価し,その最先端性能を実証した。
論文 参考訳(メタデータ) (2024-07-12T09:35:25Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Multi-view Multi-behavior Contrastive Learning in Recommendation [52.42597422620091]
マルチビヘイビアレコメンデーション(MBR)は、目標行動のパフォーマンスを改善するために、複数の振る舞いを共同で検討することを目的としている。
本稿では,新しいマルチビヘイビア・マルチビュー・コントラスト学習勧告フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-20T15:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。