論文の概要: In Pursuit of Pixel Supervision for Visual Pre-training
- arxiv url: http://arxiv.org/abs/2512.15715v1
- Date: Wed, 17 Dec 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.123885
- Title: In Pursuit of Pixel Supervision for Visual Pre-training
- Title(参考訳): 視覚前訓練のためのPixel Supervisionの提案
- Authors: Lihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu,
- Abstract要約: Pixioは、最小限の人間のキュレーションで自己キュレーション戦略を備えた、2Bのウェブクローリング画像に基づいて訓練された強化マスク付きオートエンコーダ(MAE)である。
Pixioは、単眼深度推定、フィードフォワード3D再構成、セマンティックセグメンテーション、ロボット学習など、幅広い下流タスクで競争力を発揮する。
この結果から,画素空間の自己教師型学習は有望な代替手段となり,潜在空間アプローチの補完となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 60.63095313440605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At the most basic level, pixels are the source of the visual information through which we perceive the world. Pixels contain information at all levels, ranging from low-level attributes to high-level concepts. Autoencoders represent a classical and long-standing paradigm for learning representations from pixels or other raw inputs. In this work, we demonstrate that autoencoder-based self-supervised learning remains competitive today and can produce strong representations for downstream tasks, while remaining simple, stable, and efficient. Our model, codenamed "Pixio", is an enhanced masked autoencoder (MAE) with more challenging pre-training tasks and more capable architectures. The model is trained on 2B web-crawled images with a self-curation strategy with minimal human curation. Pixio performs competitively across a wide range of downstream tasks in the wild, including monocular depth estimation (e.g., Depth Anything), feed-forward 3D reconstruction (i.e., MapAnything), semantic segmentation, and robot learning, outperforming or matching DINOv3 trained at similar scales. Our results suggest that pixel-space self-supervised learning can serve as a promising alternative and a complement to latent-space approaches.
- Abstract(参考訳): 最も基本的なレベルでは、ピクセルは私たちが世界を認識する視覚情報の源です。
ピクセルには、低レベルの属性から高レベルの概念まで、あらゆるレベルの情報が含まれている。
オートエンコーダは、ピクセルや他の生の入力から表現を学ぶための古典的で長年のパラダイムである。
本研究では,自動エンコーダをベースとした自己教師型学習が現在も競争力を維持しており,シンプルで安定的で効率的でありながら,下流タスクの強力な表現を実現できることを実証する。
我々のモデルは、コードネーム「Pixio」と呼ばれ、より困難な事前学習タスクとより有能なアーキテクチャを備えた拡張マスク付きオートエンコーダ(MAE)である。
このモデルは、人間のキュレーションを最小限に抑えた自己キュレーション戦略で、2Bのウェブクローリング画像をトレーニングする。
Pixioは、単眼深度推定(例:Depth Anything)、フィードフォワード3D再構成(例:MapAnything)、セマンティックセグメンテーション、ロボット学習など、様々な下流タスクで競争力を発揮する。
この結果から,画素空間の自己教師型学習は有望な代替手段となり,潜在空間アプローチの補完となる可能性が示唆された。
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Self-supervised Learning for Sonar Image Classification [6.1947705963945845]
自己教師付き学習は、大きなラベル付きデータセットを必要とせずに画像表現を学習するための強力なアプローチであることが証明された。
実生活ソナー画像データセットの事前学習および転送学習結果について述べる。
論文 参考訳(メタデータ) (2022-04-20T08:58:35Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。