論文の概要: From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2411.10685v1
- Date: Sat, 16 Nov 2024 03:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:31.752534
- Title: From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling
- Title(参考訳): プロトタイプから一般分布へ:マスク画像モデリングのための効率的なカリキュラム
- Authors: Jinhong Lin, Cheng-En Wu, Huanran Li, Jifan Zhang, Yu Hen Hu, Pedro Morgado,
- Abstract要約: Masked Image Modelingは視覚表現学習のための強力な自己教師型学習パラダイムとして登場した。
本稿では,原典例からデータセットのより複雑なバリエーションまで,学習プロセスの進行を構造化する,プロトタイプ駆動型カリキュラム学習フレームワークを提案する。
本研究は, 自己指導型視覚学習において, トレーニング事例の順序を慎重に制御することが重要な役割を担っていることを示唆している。
- 参考スコア(独自算出の注目度): 11.634154932876719
- License:
- Abstract: Masked Image Modeling (MIM) has emerged as a powerful self-supervised learning paradigm for visual representation learning, enabling models to acquire rich visual representations by predicting masked portions of images from their visible regions. While this approach has shown promising results, we hypothesize that its effectiveness may be limited by optimization challenges during early training stages, where models are expected to learn complex image distributions from partial observations before developing basic visual processing capabilities. To address this limitation, we propose a prototype-driven curriculum leagrning framework that structures the learning process to progress from prototypical examples to more complex variations in the dataset. Our approach introduces a temperature-based annealing scheme that gradually expands the training distribution, enabling more stable and efficient learning trajectories. Through extensive experiments on ImageNet-1K, we demonstrate that our curriculum learning strategy significantly improves both training efficiency and representation quality while requiring substantially fewer training epochs compared to standard Masked Auto-Encoding. Our findings suggest that carefully controlling the order of training examples plays a crucial role in self-supervised visual learning, providing a practical solution to the early-stage optimization challenges in MIM.
- Abstract(参考訳): Masked Image Modeling (MIM) は、視覚表現学習のための強力な自己教師型学習パラダイムとして登場し、視覚領域から画像のマスキング部分を予測することによって、リッチな視覚表現をモデルが取得できるようにする。
提案手法は有望な結果を示したが,基礎的な視覚処理機能を開発する前に,部分的な観察から複雑な画像分布を学習することが期待される早期訓練段階において,最適化課題によってその有効性が制限される可能性があるという仮説を立てた。
この制限に対処するため,プロトタイプ駆動型カリキュラム学習フレームワークを提案する。
本手法では, 温度をベースとしたアニール方式を導入し, トレーニング分布を徐々に拡大し, より安定かつ効率的な学習軌跡を実現する。
ImageNet-1Kの広範な実験を通じて、我々のカリキュラム学習戦略はトレーニング効率と表現品質の両方を大幅に改善し、標準のMasked Auto-Encodingに比べてトレーニングエポックを著しく少なくすることを示した。
本研究は,MIMの早期最適化課題に対して,自己指導型視覚学習において,訓練例の順序を慎重に制御することが重要な役割を担っていることを示唆している。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training [79.96741042766524]
訓練カリキュラムをソフトセレクション機能として再構築する。
自然画像の内容の露光は,データ拡張の強度によって容易に達成できることを示す。
結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。
論文 参考訳(メタデータ) (2024-05-14T17:00:43Z) - One-Shot Image Restoration [0.0]
提案手法の適用性, 堅牢性, 計算効率を, 教師付き画像の劣化と超解像に応用できることを実験的に示す。
本結果は,学習モデルのサンプル効率,一般化,時間複雑性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-04-26T14:03:23Z) - Learning and Leveraging World Models in Visual Representation Learning [34.81177885432796]
JEPA(Joint-Embedding Predictive Architecture)は,世界モデルを活用することで学ぶ,有望な自己教師型アプローチとして登場した。
我々は,マスク付き画像モデリングを超越したアプローチであるイメージワールドモデルを導入し,潜在空間におけるグローバルな測光変換の効果を予測する。
論文 参考訳(メタデータ) (2024-03-01T13:05:38Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Self-supervised Pre-training with Hard Examples Improves Visual
Representations [110.23337264762512]
自己教師付き事前学習(ssp)は、ランダムな画像変換を用いて視覚表現学習のためのトレーニングデータを生成する。
まず,既存のSSPメソッドを擬似ラベル予測学習として統合するモデリングフレームワークを提案する。
そこで本研究では,疑似ラベルの予測が難しい学習例をランダムな画像変換で生成するデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2020-12-25T02:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。