論文の概要: Object-level Self-Distillation for Vision Pretraining
- arxiv url: http://arxiv.org/abs/2506.05409v1
- Date: Wed, 04 Jun 2025 15:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.134971
- Title: Object-level Self-Distillation for Vision Pretraining
- Title(参考訳): 視覚前訓練のためのオブジェクトレベルの自己蒸留
- Authors: Çağlar Hızlı, Çağatay Yıldız, Pekka Marttinen,
- Abstract要約: 最先端のビジョン事前トレーニング手法は、ImageNetのようなオブジェクト中心のデータセットからのイメージレベルの自己蒸留に依存している。
画像全体から個々の物体へ自己蒸留粒度をシフトさせる事前学習手法であるオブジェクトレベル自己DIStillation(ODIS)を導入する。
提案手法は,ViT-Large を用いた ImageNet1k で 82.6% の$k$-NN 精度を実現した。
- 参考スコア(独自算出の注目度): 5.72299437201838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art vision pretraining methods rely on image-level self-distillation from object-centric datasets such as ImageNet, implicitly assuming each image contains a single object. This assumption does not always hold: many ImageNet images already contain multiple objects. Further, it limits scalability to scene-centric datasets that better mirror real-world complexity. We address these challenges by introducing Object-level Self-DIStillation (ODIS), a pretraining approach that shifts the self-distillation granularity from whole images to individual objects. Using object-aware cropping and masked attention, ODIS isolates object-specific regions, guiding the transformer toward semantically meaningful content and transforming a noisy, scene-level task into simpler object-level sub-tasks. We show that this approach improves visual representations both at the image and patch levels. Using masks at inference time, our method achieves an impressive $82.6\%$ $k$-NN accuracy on ImageNet1k with ViT-Large.
- Abstract(参考訳): 最先端のビジョン事前トレーニング方法は、イメージNetのようなオブジェクト中心のデータセットからのイメージレベルの自己蒸留に依存し、各イメージが単一のオブジェクトを含むことを暗黙的に仮定する。
多くのImageNetイメージには、すでに複数のオブジェクトが含まれています。
さらに、スケーラビリティを、現実の複雑さを反映したシーン中心のデータセットに制限する。
画像全体から個々のオブジェクトへ自己蒸留粒度をシフトさせる事前学習アプローチであるオブジェクトレベルの自己DIStillation(ODIS)を導入することで、これらの課題に対処する。
ODISは、オブジェクト認識のクロップとマスクされた注意を用いて、オブジェクト固有の領域を分離し、トランスフォーマーを意味のあるコンテンツへと誘導し、ノイズの多いシーンレベルのタスクをシンプルなオブジェクトレベルのサブタスクに変換する。
このアプローチは画像レベルとパッチレベルの両方で視覚的表現を改善する。
提案手法は,ViT-Large を用いた ImageNet1k で 8.6 %$ $k$-NN の精度を実現した。
関連論文リスト
- unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning [6.259786457043613]
教師なしマルチオブジェクトセグメンテーションは、単一画像において難しい問題である。
本稿では,現実世界の画像中の多くの複雑な物体を識別する新しい2段階パイプラインであるunMOREを紹介する。
本手法は,すべてのベースラインが崩壊する混雑した画像に優れる。
論文 参考訳(メタデータ) (2025-06-02T15:22:51Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。