論文の概要: A Mathematical Perspective On Contrastive Learning
- arxiv url: http://arxiv.org/abs/2505.24134v1
- Date: Fri, 30 May 2025 02:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.72797
- Title: A Mathematical Perspective On Contrastive Learning
- Title(参考訳): コントラスト学習に関する数学的考察
- Authors: Ricardo Baptista, Andrew M. Stuart, Son Tran,
- Abstract要約: マルチモーダルコントラスト学習(Multimodal contrastive learning)は、異なるデータモダリティをリンクするための方法論である。
本稿では,条件付き確率分布を定義するエンコーダの最適化として,バイモーダル設定とコントラスト学習に着目した。
- 参考スコア(独自算出の注目度): 5.66952471288857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal contrastive learning is a methodology for linking different data modalities; the canonical example is linking image and text data. The methodology is typically framed as the identification of a set of encoders, one for each modality, that align representations within a common latent space. In this work, we focus on the bimodal setting and interpret contrastive learning as the optimization of (parameterized) encoders that define conditional probability distributions, for each modality conditioned on the other, consistent with the available data. This provides a framework for multimodal algorithms such as crossmodal retrieval, which identifies the mode of one of these conditional distributions, and crossmodal classification, which is similar to retrieval but includes a fine-tuning step to make it task specific. The framework we adopt also gives rise to crossmodal generative models. This probabilistic perspective suggests two natural generalizations of contrastive learning: the introduction of novel probabilistic loss functions, and the use of alternative metrics for measuring alignment in the common latent space. We study these generalizations of the classical approach in the multivariate Gaussian setting. In this context we view the latent space identification as a low-rank matrix approximation problem. This allows us to characterize the capabilities of loss functions and alignment metrics to approximate natural statistics, such as conditional means and covariances; doing so yields novel variants on contrastive learning algorithms for specific mode-seeking and for generative tasks. The framework we introduce is also studied through numerical experiments on multivariate Gaussians, the labeled MNIST dataset, and on a data assimilation application arising in oceanography.
- Abstract(参考訳): マルチモーダルコントラスト学習(Multimodal contrastive learning)は、異なるデータモダリティをリンクする方法論である。
この方法論は典型的には、共通の潜在空間内の表現を整列するエンコーダの集合を識別するものとして構成される。
本研究では,両モード設定に着目し,コントラスト学習を条件付き確率分布を定義する(パラメータ化)エンコーダの最適化として解釈する。
これは、これらの条件分布の1つのモードを識別するクロスモーダル検索のようなマルチモーダルアルゴリズムのためのフレームワークを提供する。
私たちが採用するフレームワークは、クロスモーダルな生成モデルももたらします。
この確率論的視点は、新しい確率的損失関数の導入と、共通の潜在空間におけるアライメントを測定するための代替指標の使用という、対照的な学習の自然な一般化を示唆している。
多変量ガウス集合における古典的アプローチのこれらの一般化について研究する。
この文脈では、潜在空間の同定を低ランク行列近似問題とみなす。
これにより、損失関数とアライメントメトリクスの能力を特徴付けることができ、条件付き平均や共分散といった自然統計を近似することができる。
このフレームワークは,多変量ガウス,ラベル付きMNISTデータセット,および海洋学におけるデータ同化アプリケーションに関する数値実験を通じても研究されている。
関連論文リスト
- Multimodal Representation Alignment for Cross-modal Information Retrieval [12.42313654539524]
異なる機械学習モデルは、異なる方法で同じ基礎概念を表現することができる。
この可変性は、入力として与えられた1つのモダリティで対応する表現を識別することを目的として、Wildのマルチモーダル検索において特に有用である。
そこで本研究では,視覚言語モデルと統合単調モデルの両方から得られる視覚とテキストの埋め込みの幾何学的関係について検討する。
次に、ニューラルネットワークを介して実装された4つの標準的な類似度メトリクスと2つの学習した指標を使用して、これらの表現を調整します。
論文 参考訳(メタデータ) (2025-06-10T13:16:26Z) - Learning local neighborhoods of non-Gaussian graphical models: A measure transport approach [0.3749861135832072]
局所マルコフ特性を利用して各変数の条件付き独立関係を推定するスケーラブルなアルゴリズムを提案する。
提案手法は,非ガウス分布 (L-Sing) の局所空間同定 (Localized Sparsity Identification) と名付けられ,フレキシブルなトランスポートマップのクラスを用いてグラフを推定する。
論文 参考訳(メタデータ) (2025-03-18T04:53:22Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - The Normalized Cross Density Functional: A Framework to Quantify
Statistical Dependence for Random Processes [6.625320950808605]
正規化クロス密度(NCD)と呼ばれる正定関数を用いて、2つのランダムプロセス(r.p.)間の統計的依存を測定する新しい手法を提案する。
NCDは2つのr.p.の確率密度関数から直接導出され、データ依存ヒルベルト空間、正規化クロス密度ヒルベルト空間(NCD-HS)を構成する。
我々は,FMCAがNCDの固有値と固有関数を直接実現したことを数学的に証明する。
論文 参考訳(メタデータ) (2022-12-09T02:12:41Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Integrating Information Theory and Adversarial Learning for Cross-modal
Retrieval [19.600581093189362]
マルチメディアコミュニティでは,クロスモーダル検索における視覚データとテキストデータのマッチングが広く研究されている。
シャノン情報理論と対比学習の統合を提案する。
ギャップの観点からは,モダリティ分類と情報エントロピーを相反的に統合する。
論文 参考訳(メタデータ) (2021-04-11T11:04:55Z) - Learning with Density Matrices and Random Features [44.98964870180375]
密度行列は、量子系の統計状態を記述する。
量子系の量子的不確実性と古典的不確実性の両方を表現することは強力な形式主義である。
本稿では,機械学習モデルのビルディングブロックとして密度行列をどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2021-02-08T17:54:59Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。