論文の概要: Self-supervised pretraining for an iterative image size agnostic vision transformer
- arxiv url: http://arxiv.org/abs/2604.20392v1
- Date: Wed, 22 Apr 2026 09:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.073337
- Title: Self-supervised pretraining for an iterative image size agnostic vision transformer
- Title(参考訳): 反復型画像サイズ非依存型視覚変換器のための自己教師付き事前学習
- Authors: Nedyalko Prisadnikov, Danda Pani Paudel, Yuqian Fu, Luc Van Gool,
- Abstract要約: ビジョントランスフォーマー(ViT)が自己教師型学習(SSL)を支配している
本稿では, DINO の自己蒸留目標に基づく, シーケンシャル・グローバルなSSLフレームワークを提案する。
我々は、ImageNet-1Kと下流分類タスクの競合性能を達成する。
- 参考スコア(独自算出の注目度): 60.09702846704075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) dominate self-supervised learning (SSL). While they have proven highly effective for large-scale pretraining, they are computationally inefficient and scale poorly with image size. Consequently, foundational models like DINO are constrained to low-resolution processing. A recent foveal-inspired transformer achieves resolution agnosticism by iteratively processing a fixed-size context of multi-zoom patches. This model demonstrated promising results via supervised learning, utilizing a sequential, recurrent-like process without backpropagation through time. To unlock its potential as a foundational backbone, we introduce a novel sequential-to-global SSL framework based on DINO's self-distillation objective. Supported by an efficient integral-image patch extraction method, our approach enables large-scale pretraining for image-size agnostic vision encoders. We achieve competitive performance on ImageNet-1K and downstream classification tasks, maintaining a constant computational budget regardless of input resolution.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)が自己教師型学習(SSL)を支配している。
大規模な事前学習には非常に効果的であることが証明されているが、計算的に非効率であり、画像サイズではスケールが不十分である。
そのため、DINOのような基礎モデルは低解像度処理に制約される。
近年のFoveal-Inspired Transformerは、マルチゾーンパッチの固定サイズコンテキストを反復的に処理することで、解決非依存を実現する。
このモデルは教師付き学習を通じて有望な結果を示し、時間を通してバックプロパゲーションを伴わない逐次的再帰的なプロセスを利用した。
基礎となるバックボーンとしての可能性を解き明かすため,DINOの自己蒸留目的に基づく,新たなシーケンシャル・ツー・グロバルSSLフレームワークを導入する。
本手法は,画像サイズに依存しない視覚エンコーダの大規模事前学習を可能にする。
我々は、ImageNet-1Kおよび下流分類タスクにおける競合性能を達成し、入力解像度に関係なく一定の計算予算を維持する。
関連論文リスト
- ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion [7.233066974580282]
テキストと画像の拡散モデルは、トレーニングの解像度を超える画像を生成する際に、しばしば劣化した性能を示す。
最近のトレーニングフリーな手法は、この制限を緩和することができるが、かなりの計算を必要とする場合や、最近の拡散変換器モデルと互換性がない場合が多い。
本研究では,事前学習した拡散モデルの解法を,追加の訓練なしに拡張するためのモデル非依存かつ高効率なフレームワークであるScaleDiffを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:17:32Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - HAT: Hybrid Attention Transformer for Image Restoration [59.69448362233234]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Unsupervised Domain-Specific Deblurring using Scale-Specific Attention [0.25797036386508543]
スケール適応型アテンションモジュール (SAAM) を用いた教師なしドメイン固有のデブロアリングを提案する。
我々のネットワークはトレーニングのために教師付きペアを必要とせず、デブロアリング機構は主に敵の損失によって導かれる。
異なるアブレーション研究により、我々の粗粒度機構は、教師なしモデルよりも優れており、SAAMは文学で使用される注意モデルと比較して、より優れた参画が可能であることが示されている。
論文 参考訳(メタデータ) (2021-12-12T07:47:45Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。