論文の概要: cMIM: A Contrastive Mutual Information Framework for Unified Generative and Discriminative Representation Learning
- arxiv url: http://arxiv.org/abs/2502.19642v1
- Date: Thu, 27 Feb 2025 00:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:46.059160
- Title: cMIM: A Contrastive Mutual Information Framework for Unified Generative and Discriminative Representation Learning
- Title(参考訳): cMIM:一元的・差別的表現学習のための対比的相互情報フレームワーク
- Authors: Micha Livne,
- Abstract要約: 本稿では、下流タスクにおける学習表現の有用性を高めることを目的とした、相互情報機械(cMIM)について紹介する。
最初の実験では、MIMが学習した表現は、最先端(SOTA)モデルと比較して差別的な下流タスクには効果が低いことが示された。
本稿では,エンコーダ・デコーダモデルから情報埋め込みを抽出する汎用手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Learning representations that are useful for unknown downstream tasks is a fundamental challenge in representation learning. Prominent approaches in this domain include contrastive learning, self-supervised masking, and denoising auto-encoders. In this paper, we introduce a novel method, termed contrastive Mutual Information Machine (cMIM), which aims to enhance the utility of learned representations for downstream tasks. cMIM integrates a new contrastive learning loss with the Mutual Information Machine (MIM) learning framework, a probabilistic auto-encoder that maximizes the mutual information between inputs and latent representations while clustering the latent codes. Despite MIM's potential, initial experiments indicated that the representations learned by MIM were less effective for discriminative downstream tasks compared to state-of-the-art (SOTA) models. The proposed cMIM method directly addresses this limitation. The main contributions of this work are twofold: (1) We propose a novel contrastive extension to MIM for learning discriminative representations which eliminates the need for data augmentation and is robust to variations in the number of negative examples (i.e., batch size). (2) We introduce a generic method for extracting informative embeddings from encoder-decoder models, which significantly improves performance in discriminative downstream tasks without requiring additional training. This method is applicable to any pre-trained encoder-decoder model. By presenting cMIM, we aim to offer a unified generative model that is effective for both generative and discriminative tasks. Our results demonstrate that the learned representations are valuable for downstream tasks while maintaining the generative capabilities of MIM.
- Abstract(参考訳): 未知の下流タスクに有用な表現の学習は、表現学習における根本的な課題である。
この領域で著名なアプローチとしては、コントラスト学習、自己監督型マスキング、自動エンコーダの認知などがある。
本稿では、下流タスクにおける学習表現の有用性を高めることを目的とした、コントラスト型相互情報機械(cMIM)と呼ばれる新しい手法を提案する。
cMIMはMutual Information Machine (MIM)学習フレームワークと新たな対照的な学習損失を統合する。これは潜時符号をクラスタ化しながら入力と潜時表現間の相互情報を最大化する確率的オートエンコーダである。
MIMのポテンシャルにも拘わらず、初期の実験では、MIMが学んだ表現は、最先端(SOTA)モデルと比較して差別的な下流タスクにはあまり効果がないことが示された。
提案手法は, 直接的にこの制限に対処する。
本研究の主な貢献は2つある: 1) データ拡張の必要性を排除し、負の例数(バッチサイズ)の変動に頑健な識別表現を学習するためのMIMに対する新しいコントラスト拡張を提案する。
2)エンコーダ・デコーダモデルから情報埋め込みを抽出する汎用手法を提案する。
この方法は、事前訓練されたエンコーダ-デコーダモデルに適用できる。
cMIMを提示することで、生成的タスクと識別的タスクの両方に有効な統一的な生成モデルを提供することを目指している。
以上の結果から,MIMの生成能力を維持しつつ,下流作業において学習表現が有用であることが示唆された。
関連論文リスト
- USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - On the Role of Discrete Tokenization in Visual Representation Learning [35.10829554701771]
マスク付き画像モデリング (MIM) は, 対照的な学習手法とともに人気を博している。
個別のトークンは 再建の標的だが この選択の理論的基盤は 未解明のままだ
離散トークン化がモデルの一般化能力にどのように影響するかを包括的に理論的に理解する。
我々は,MIMフレームワーク内の離散トークンの有効性を評価するために,TCASという新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:25:31Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。