論文の概要: DINOv3
- arxiv url: http://arxiv.org/abs/2508.10104v1
- Date: Wed, 13 Aug 2025 18:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.074149
- Title: DINOv3
- Title(参考訳): DINOv3
- Authors: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski,
- Abstract要約: 自己教師型学習は、手動データアノテーションの必要性を排除し、巨大なデータセットやより大きなアーキテクチャにモデルを集中的にスケールできるようにするという約束を守ります。
この技術レポートでは、シンプルだが効果的な戦略を活用することで、このビジョンを実現するための大きなマイルストーンであるDINOv3を紹介します。
DINOv3は高品位な高精細な特徴を生み出し、様々な視覚タスクにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 62.31809406012177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning holds the promise of eliminating the need for manual data annotation, enabling models to scale effortlessly to massive datasets and larger architectures. By not being tailored to specific tasks or domains, this training paradigm has the potential to learn visual representations from diverse sources, ranging from natural to aerial images -- using a single algorithm. This technical report introduces DINOv3, a major milestone toward realizing this vision by leveraging simple yet effective strategies. First, we leverage the benefit of scaling both dataset and model size by careful data preparation, design, and optimization. Second, we introduce a new method called Gram anchoring, which effectively addresses the known yet unsolved issue of dense feature maps degrading during long training schedules. Finally, we apply post-hoc strategies that further enhance our models' flexibility with respect to resolution, model size, and alignment with text. As a result, we present a versatile vision foundation model that outperforms the specialized state of the art across a broad range of settings, without fine-tuning. DINOv3 produces high-quality dense features that achieve outstanding performance on various vision tasks, significantly surpassing previous self- and weakly-supervised foundation models. We also share the DINOv3 suite of vision models, designed to advance the state of the art on a wide spectrum of tasks and data by providing scalable solutions for diverse resource constraints and deployment scenarios.
- Abstract(参考訳): 自己教師型学習は、手動データアノテーションの必要性を排除し、巨大なデータセットや大規模なアーキテクチャにモデルを集中的に拡張可能にする、という約束を持っている。
このトレーニングパラダイムは、特定のタスクやドメインに合わせて調整されていないため、自然画像から空中画像まで、単一のアルゴリズムを使ってさまざまなソースから視覚表現を学ぶことができる。
この技術レポートでは、シンプルだが効果的な戦略を活用することで、このビジョンを実現するための大きなマイルストーンであるDINOv3を紹介します。
まず、慎重にデータ準備、設計、最適化することで、データセットとモデルサイズの両方をスケールする利点を活用します。
第2に,長時間のトレーニングスケジュールにおいて,高次特徴写像が劣化するという既知の未解決問題に効果的に対処する,Gram anchoringという新しい手法を導入する。
最後に、解像度、モデルサイズ、テキストとの整合性に関して、モデルの柔軟性をさらに向上するポストホック戦略を適用します。
その結果,多機能な視覚基礎モデルが,微調整をせずに,多種多様な設定において特殊技術よりも優れることを示す。
DINOv3は、様々な視覚タスクにおいて優れた性能を達成し、以前の自己および弱教師付き基礎モデルを大幅に上回る高品質の高密度特徴を生産する。
また、さまざまなリソース制約やデプロイメントシナリオに対してスケーラブルなソリューションを提供することで、幅広いタスクやデータに対して最先端の技術を推進すべく設計された、DINOv3のビジョンモデルも共有しています。
関連論文リスト
- BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (2025-05-14T17:11:07Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。