論文の概要: Contrastive MIM: A Contrastive Mutual Information Framework for Unified Generative and Discriminative Representation Learning
- arxiv url: http://arxiv.org/abs/2502.19642v2
- Date: Mon, 08 Sep 2025 17:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.768605
- Title: Contrastive MIM: A Contrastive Mutual Information Framework for Unified Generative and Discriminative Representation Learning
- Title(参考訳): コントラストMIM:一元的・識別的表現学習のためのコントラスト的相互情報フレームワーク
- Authors: Micha Livne,
- Abstract要約: 我々は,相互情報機械 (MIM) を新規に拡張する確率的フレームワークである相互情報機械 (cMIM) を紹介する。
cMIMはこの制限に対処し、MIMの生成強度を維持しながらグローバルな識別構造を強制する。
提案する主なコントリビューションは,(1) インフォネッセ方式とは異なり,有意なデータ拡張の必要性を排除し,バッチサイズに堅牢なMIMのコントラスト拡張であるcMIM,(2) エンコーダ-デコーダからリッチ表現を抽出する一般的な手法である情報埋め込みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learning representations that generalize well to unknown downstream tasks is a central challenge in representation learning. Existing approaches such as contrastive learning, self-supervised masking, and denoising auto-encoders address this challenge with varying trade-offs. In this paper, we introduce the {contrastive Mutual Information Machine} (cMIM), a probabilistic framework that augments the Mutual Information Machine (MIM) with a novel contrastive objective. While MIM maximizes mutual information between inputs and latent variables and encourages clustering of latent codes, its representations underperform on discriminative tasks compared to state-of-the-art alternatives. cMIM addresses this limitation by enforcing global discriminative structure while retaining MIM's generative strengths. We present two main contributions: (1) we propose cMIM, a contrastive extension of MIM that eliminates the need for positive data augmentation and is robust to batch size, unlike InfoNCE-based methods; (2) we introduce {informative embeddings}, a general technique for extracting enriched representations from encoder--decoder models that substantially improve discriminative performance without additional training, and which apply broadly beyond MIM. Empirical results demonstrate that cMIM consistently outperforms MIM and InfoNCE in classification and regression tasks, while preserving comparable reconstruction quality. These findings suggest that cMIM provides a unified framework for learning representations that are simultaneously effective for discriminative and generative applications.
- Abstract(参考訳): 未知の下流タスクによく一般化する表現の学習は、表現学習における中心的な課題である。
対照的な学習、自己監督型マスキング、自動エンコーダの認知といった既存のアプローチは、様々なトレードオフによってこの問題に対処している。
本稿では,相互情報機械(MIM)を新たなコントラスト目的で強化する確率的フレームワークである,コントラスト型相互情報機械(cMIM)を紹介する。
MIMは入力と潜時変数間の相互情報を最大化し、潜時符号のクラスタリングを促進するが、その表現は最先端の代替品と比較して差別的なタスクでは不十分である。
cMIMはこの制限に対処し、MIMの生成強度を維持しながらグローバルな識別構造を強制する。
我々は,(1) インフォメーションベースの手法とは異なり,積極的データ拡張の必要性を排除し,バッチサイズに頑健なMIMの拡張であるcMIMを提案し,(2) エンコーダ-デコーダモデルからリッチ表現を抽出する一般的な手法である {informative embeddeddings} を導入し,MIM を超えて差別的性能を大幅に向上させる。
実験の結果,cMIM はMIM やInfoNCE よりも高い性能を示し,再現性は同等であることがわかった。
これらの結果から,cMIMは識別的・生成的応用に同時に有効である学習表現のための統一的なフレームワークを提供する可能性が示唆された。
関連論文リスト
- UCD: Unlearning in LLMs via Contrastive Decoding [10.901118996654171]
コントラストデコーディングを用いた推論時アンラーニングアルゴリズムを提案する。
我々は、TOFUとMUSEの2つのアンラーニングベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-06-12T16:02:26Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - On the Role of Discrete Tokenization in Visual Representation Learning [35.10829554701771]
マスク付き画像モデリング (MIM) は, 対照的な学習手法とともに人気を博している。
個別のトークンは 再建の標的だが この選択の理論的基盤は 未解明のままだ
離散トークン化がモデルの一般化能力にどのように影響するかを包括的に理論的に理解する。
我々は,MIMフレームワーク内の離散トークンの有効性を評価するために,TCASという新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:25:31Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。