論文の概要: Distilling Vision Transformers for Distortion-Robust Representation Learning
- arxiv url: http://arxiv.org/abs/2604.22529v1
- Date: Fri, 24 Apr 2026 13:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.466568
- Title: Distilling Vision Transformers for Distortion-Robust Representation Learning
- Title(参考訳): 歪みロバスト表現学習のための蒸留型視覚変換器
- Authors: Konstantinos Alexis, Giorgos Giannopoulos, Dimitrios Gunopulos,
- Abstract要約: 自己教師付き学習はクリーンデータから視覚表現を学習する上で大きな成功を収めた。
本稿では,事前学習した視覚モデルを用いて歪みロスト表現を学習できることを実証する。
- 参考スコア(独自算出の注目度): 1.7987984248341242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning has achieved remarkable success in learning visual representations from clean data, yet remains challenging when clean observations are sparse or not available at all. In this paper, we demonstrate that pretrained vision models can be leveraged to learn distortion-robust representations, which can then be effectively applied to downstream tasks operating on distorted observations. In particular, we propose an asymmetric knowledge distillation framework in which both teacher and student are initialized from the same pretrained Vision Transformer but receive different views of each image: the teacher processes clean images, while the student sees their distorted versions. We introduce multi-level distillation that aligns global embeddings, patch-level features, and attention maps and show that the student is able to approximate clean-image representations despite never directly accessing clean data. We evaluate our approach on image classification tasks across several datasets and under various distortions, consistently outperforming existing alternatives for the same amount of human supervision.
- Abstract(参考訳): 自己教師付き学習は、クリーンなデータから視覚的な表現を学ぶのに顕著な成功を収めてきたが、クリーンな観察が不十分であるか、全く利用できないかは、依然として困難なままである。
本稿では,事前学習した視覚モデルを用いて歪みロスの表現を学習し,歪みの観測を行う下流タスクに効果的に適用できることを実証する。
特に,教師と生徒が同じ事前訓練されたビジョントランスフォーマーから初期化されるが,各イメージの異なるビューを受信する非対称な知識蒸留フレームワークを提案する。
我々は,グローバルな埋め込み,パッチレベルの特徴,アテンションマップを整列する多層蒸留を導入し,クリーンなデータに直接アクセスしないにもかかわらず,学生がクリーンなイメージ表現を近似できることを示す。
我々は、複数のデータセットと様々な歪みの下で画像分類タスクに対するアプローチを評価し、同じ量の人的監督のために既存の選択肢を一貫して上回っている。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - SimFIR: A Simple Framework for Fisheye Image Rectification with
Self-supervised Representation Learning [105.01294305972037]
自己教師型表現学習に基づく魚眼画像修正のためのフレームワークであるSimFIRを紹介する。
まず魚眼画像を複数のパッチに分割し,その表現を視覚変換器で抽出する。
下流修正作業における転送性能が著しく向上し、学習された表現の有効性が検証される。
論文 参考訳(メタデータ) (2023-08-17T15:20:17Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Focus on the Positives: Self-Supervised Learning for Biodiversity
Monitoring [9.086207853136054]
ラベルのない画像コレクションから自己教師付き表現を学習する問題に対処する。
我々は,入力画像間の空間的関係や時間的関係などの情報を符号化する,手軽に利用可能なコンテキストデータを利用する。
地球生物多様性監視の重要課題として、人間の監督が限定された視覚的種分類タスクに適応可能な画像特徴があげられる。
論文 参考訳(メタデータ) (2021-08-14T01:12:41Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Distilling Visual Priors from Self-Supervised Learning [24.79633121345066]
畳み込みニューラルネットワーク(CNN)は、小さなトレーニングデータセットに適合する傾向にある。
データ不足条件下での画像分類のためのCNNモデルの一般化能力を向上させるために,自己教師付き学習と知識蒸留を活用した2相パイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-01T13:07:18Z) - Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases [34.02639091680309]
近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
論文 参考訳(メタデータ) (2020-07-28T00:11:31Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。