論文の概要: Next-Embedding Prediction Makes Strong Vision Learners
- arxiv url: http://arxiv.org/abs/2512.16922v1
- Date: Thu, 18 Dec 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.260985
- Title: Next-Embedding Prediction Makes Strong Vision Learners
- Title(参考訳): 強力な視覚学習者を生み出す次世代の埋め込み予測
- Authors: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu,
- Abstract要約: モデルをトレーニングして埋め込みを生成し、予測タスクを直接実行します。
Next-Embedding Predictive Autoregression (NEPA)はタスク間で強力な結果をもたらす。
埋め込みから生成する事前学習は、視覚的な自己教師型学習に代わる、シンプルでスケーラブルで、潜在的にモダリティに依存しない代替手段を提供する、と私たちは信じています。
- 参考スコア(独自算出の注目度): 68.55755328850634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.
- Abstract(参考訳): 自然言語における生成前訓練の成功に触発されて、我々は、同じ原理が強力な自己教師型視覚学習者を生み出すことができるかどうかを問う。
下流で使用する機能を出力するモデルをトレーニングする代わりに、予測タスクを直接実行する埋め込みを生成するようにトレーニングします。
この研究は、学習表現から学習モデルへのこのようなシフトを探求する。
具体的には、因果マスキングと停止勾配を用いて、モデルが過去のものと条件付けられた将来のパッチ埋め込みを予測することを学習し、これをNext-Embedding Predictive Autoregression(NEPA)と呼ぶ。
我々は,ImageNet-1kで事前訓練された単純なトランスフォーマーを,その唯一の学習目的として,次の埋め込み予測が有効であることを実証した。
この定式化はアーキテクチャの単純さとスケーラビリティを保ち、設計の複雑さを増すことなく維持する。
NEPAは、ImageNet-1Kの83.8%と85.3%のトップ-1の精度を、微調整後のViT-BとViT-Lのバックボーンで達成し、ADE20Kのセマンティックセグメンテーションに効果的に転送する。
埋め込みから生成する事前学習は、視覚的な自己教師型学習に代わる、シンプルでスケーラブルで、潜在的にモダリティに依存しない代替手段を提供する、と私たちは信じています。
関連論文リスト
- DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。
我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。
DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文 参考訳(メタデータ) (2025-02-24T13:51:06Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Rejuvenating image-GPT as Strong Visual Representation Learners [28.77567067712619]
本稿では,次のピクセルの予測に自己回帰事前学習を導入する先駆的な研究である画像GPTを強化する。
我々は、予測対象を生の画素から意味トークンにシフトし、視覚的内容の高レベルな理解を可能にする。
実験では、D-iGPTが視覚表現の強力な学習者として優れていることが示された。
論文 参考訳(メタデータ) (2023-12-04T18:59:20Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。