論文の概要: Learning Mask Invariant Mutual Information for Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2502.19718v1
- Date: Thu, 27 Feb 2025 03:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:45.029331
- Title: Learning Mask Invariant Mutual Information for Masked Image Modeling
- Title(参考訳): マスキング画像モデリングのためのマスク不変な相互情報の学習
- Authors: Tao Huang, Yanxiang Ma, Shan You, Chang Xu,
- Abstract要約: Maskedencodes (MAEs) はコンピュータビジョンにおける卓越した自己教師型学習パラダイムである。
近年の研究では、コントラスト学習と特徴表現分析を通じて、MAEの機能の解明が試みられている。
本稿では,情報理論における情報ボトルネックの原理を活用することで,MAEを理解するための新たな視点を提案する。
- 参考スコア(独自算出の注目度): 35.63719638508299
- License:
- Abstract: Masked autoencoders (MAEs) represent a prominent self-supervised learning paradigm in computer vision. Despite their empirical success, the underlying mechanisms of MAEs remain insufficiently understood. Recent studies have attempted to elucidate the functioning of MAEs through contrastive learning and feature representation analysis, yet these approaches often provide only implicit insights. In this paper, we propose a new perspective for understanding MAEs by leveraging the information bottleneck principle in information theory. Our theoretical analyses reveal that optimizing the latent features to balance relevant and irrelevant information is key to improving MAE performance. Building upon our proofs, we introduce MI-MAE, a novel method that optimizes MAEs through mutual information maximization and minimization. By enhancing latent features to retain maximal relevant information between them and the output, and minimizing irrelevant information between them and the input, our approach achieves better performance. Extensive experiments on standard benchmarks show that MI-MAE significantly outperforms MAE models in tasks such as image classification, object detection, and semantic segmentation. Our findings validate the theoretical framework and highlight the practical advantages of applying the information bottleneck principle to MAEs, offering deeper insights for developing more powerful self-supervised learning models.
- Abstract(参考訳): Masked Autoencoders (MAE) はコンピュータビジョンにおける卓越した自己教師型学習パラダイムである。
実験的な成功にもかかわらず、基礎となるMAEのメカニズムは未だ十分に理解されていない。
近年の研究では、対照的な学習と特徴表現分析を通じて、MAEの機能を解明しようと試みているが、これらのアプローチは暗黙の洞察しか提供しないことが多い。
本稿では,情報理論における情報ボトルネックの原理を活用することで,MAEを理解するための新たな視点を提案する。
理論的解析の結果,関連する情報と無関係情報のバランスをとるために潜伏特徴を最適化することが,MAEの性能向上の鍵であることが判明した。
そこで我々はMI-MAEを導入する。MI-MAEは相互情報の最大化と最小化によってMAEを最適化する新しい手法である。
出力と出力の間に最大関連情報を保持するために潜時特徴を増強し、それらと入力の間の無関係情報を最小化することにより、より優れた性能を実現する。
MI-MAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションといったタスクにおいて、MAEモデルよりも大幅に優れていることを示す。
本研究は,理論的枠組みを検証し,情報ボトルネックの原理をMAEに適用し,より強力な自己教師あり学習モデルを構築するための深い洞察を提供するという実用的利点を強調した。
関連論文リスト
- SG-MIM: Structured Knowledge Guided Efficient Pre-training for Dense Prediction [17.44991827937427]
マスク付き画像モデリング技術はコンピュータビジョンの景観を再定義した。
その成功にもかかわらず、密集予測タスク、特に深度推定におけるMIMベースの手法の可能性は未解決のままである。
SG-MIM(Structured Knowledge Guided Masked Image Modeling framework)を提案する。
論文 参考訳(メタデータ) (2024-09-04T08:24:53Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - Tackling Visual Control via Multi-View Exploration Maximization [64.8463574294237]
MEMは強化学習における多視点表現学習と報酬駆動探索を組み合わせた最初のアプローチである
我々は,DeepMind Control Suite と Procgen の様々なタスクにおける MEM の評価を行った。
論文 参考訳(メタデータ) (2022-11-28T11:29:56Z) - Ultra-marginal Feature Importance: Learning from Data with Causal Guarantees [1.2289361708127877]
データ間の関係を定量化するためにMCI(Marginal contribute feature importance)が開発された。
本稿では,AIフェアネス文学からの依存除去手法を基盤として,ウルトラマージナル特徴重要度(UMFI)を導入する。
UMFIがMCIよりも優れている実データやシミュレーションデータについて,特に相互関係や非関連性の存在下で述べる。
論文 参考訳(メタデータ) (2022-04-21T07:54:58Z) - MINER: Improving Out-of-Vocabulary Named Entity Recognition from an
Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。
近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。
我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文 参考訳(メタデータ) (2022-04-09T05:18:20Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z) - MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。
我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。
このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。