論文の概要: Contrastive Mutual Information Learning: Toward Robust Representations without Positive-Pair Augmentations
- arxiv url: http://arxiv.org/abs/2509.21511v1
- Date: Thu, 25 Sep 2025 20:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.970201
- Title: Contrastive Mutual Information Learning: Toward Robust Representations without Positive-Pair Augmentations
- Title(参考訳): 対照的な相互情報学習 : 肯定的なペア強化を伴わないロバスト表現を目指して
- Authors: Micha Livne,
- Abstract要約: 我々は,相互情報機械(MIM)を拡張した確率的フレームワークである相互情報機械(cMIM)を紹介した。
CMIMはこのギャップに対処し、MIMの生成的忠実性を維持しながら、グローバルな差別的構造を付与する。
視覚および分子ベンチマークにおける実証的証拠として,cMIM がMIM やInfoNCE より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning representations that transfer well to diverse downstream tasks remains a central challenge in representation learning. Existing paradigms -- contrastive learning, self-supervised masking, and denoising auto-encoders -- balance this challenge with different trade-offs. We introduce the {contrastive Mutual Information Machine} (cMIM), a probabilistic framework that extends the Mutual Information Machine (MIM) with a contrastive objective. While MIM maximizes mutual information between inputs and latents and promotes clustering of codes, it falls short on discriminative tasks. cMIM addresses this gap by imposing global discriminative structure while retaining MIM's generative fidelity. Our contributions are threefold. First, we propose cMIM, a contrastive extension of MIM that removes the need for positive data augmentation and is substantially less sensitive to batch size than InfoNCE. Second, we introduce {informative embeddings}, a general technique for extracting enriched features from encoder-decoder models that boosts discriminative performance without additional training and applies broadly beyond MIM. Third, we provide empirical evidence across vision and molecular benchmarks showing that cMIM outperforms MIM and InfoNCE on classification and regression tasks while preserving competitive reconstruction quality. These results position cMIM as a unified framework for representation learning, advancing the goal of models that serve both discriminative and generative applications effectively.
- Abstract(参考訳): 多様な下流タスクにうまく移行する表現の学習は、表現学習における中心的な課題である。
既存のパラダイム -- 対照的な学習、自己監督型マスキング、自動エンコーダの装飾 — は、この課題とさまざまなトレードオフのバランスを取る。
本稿では,相互情報機械(MIM)を拡張した確率的フレームワークであるcMIM(Contrastive Mutual Information Machine)を紹介する。
MIMは入力と潜時の間の相互情報を最大化し、コードのクラスタ化を促進するが、識別タスクでは不足する。
cMIMはこのギャップに対処し、MIMの生成的忠実性を維持しながら、グローバルな識別的構造を付与する。
私たちの貢献は3倍です。
まず、MIMの対照的な拡張であるcMIMを提案する。これは、正のデータ拡張の必要性を排除し、InfoNCEよりもバッチサイズにかなり敏感である。
第二に,エンコーダ・デコーダモデルからリッチな特徴を抽出する一般的な手法であるinformative embeddingsを導入する。
第3に, 視覚および分子ベンチマークにおける実証的証拠として, cMIM がMIM やInfoNCE よりも高い性能を示し, 再現品質を保ちながら, 分類および回帰作業に優れることを示す。
これらの結果は、cMIMを表現学習の統一フレームワークとして位置づけ、識別的および生成的両方の応用を効果的に行うモデルの目標を推し進める。
関連論文リスト
- A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - Contrastive MIM: A Contrastive Mutual Information Framework for Unified Generative and Discriminative Representation Learning [0.0]
我々は,相互情報機械 (MIM) を新規に拡張する確率的フレームワークである相互情報機械 (cMIM) を紹介する。
cMIMはこの制限に対処し、MIMの生成強度を維持しながらグローバルな識別構造を強制する。
提案する主なコントリビューションは,(1) インフォネッセ方式とは異なり,有意なデータ拡張の必要性を排除し,バッチサイズに堅牢なMIMのコントラスト拡張であるcMIM,(2) エンコーダ-デコーダからリッチ表現を抽出する一般的な手法である情報埋め込みを提案する。
論文 参考訳(メタデータ) (2025-02-27T00:23:40Z) - BioNeMo Framework: a modular, high-performance library for AI model development in drug discovery [79.52947133303498]
計算生物学と化学AIモデルのトレーニングを容易にするために,BioNeMo Frameworkを紹介した。
256のNVIDIA A100では、BioNeMo Frameworkは40億のパラメータBERTベースのPLMを4.2日で1兆個以上のトークンでトレーニングしている。
BioNeMo Frameworkはオープンソースで、誰でも自由に使える。
論文 参考訳(メタデータ) (2024-11-15T19:46:16Z) - Constructing Enhanced Mutual Information for Online Class-Incremental Learning [11.555090963348595]
Online Class-Incremental Continuousal Learning (OCIL)は、単一チャネルのデータストリームから継続的に学習するという課題に対処する。
既存の相互情報(MI)ベースの手法は、タスク間の知識の混乱を無視して、様々な知識コンポーネントを分離して扱う。
我々はknwoledgeデカップリングに基づくEMI(Enhanced Mutual Information)手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T06:16:11Z) - On the Role of Discrete Tokenization in Visual Representation Learning [35.10829554701771]
マスク付き画像モデリング (MIM) は, 対照的な学習手法とともに人気を博している。
個別のトークンは 再建の標的だが この選択の理論的基盤は 未解明のままだ
離散トークン化がモデルの一般化能力にどのように影響するかを包括的に理論的に理解する。
我々は,MIMフレームワーク内の離散トークンの有効性を評価するために,TCASという新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:25:31Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。