論文の概要: Two-Stage Vision Transformer for Image Restoration: Colorization Pretraining + Residual Upsampling
- arxiv url: http://arxiv.org/abs/2512.02512v1
- Date: Tue, 02 Dec 2025 08:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.780399
- Title: Two-Stage Vision Transformer for Image Restoration: Colorization Pretraining + Residual Upsampling
- Title(参考訳): 画像復元のための2段階視覚変換器:彩色事前調整+残像アップサンプリング
- Authors: Aditya Chaudhary, Prachet Dev Singh, Ankit Jha,
- Abstract要約: 本稿では,2段階のトレーニング戦略を用いた視覚変換器(ViT)の性能向上手法を提案する。
DIV2Kベンチマークデータセットでトレーニングされ評価されたViT-SRは、0.712のSingle Image Super-Resolution(SISR)と22.90dBのPSNRを達成した。
- 参考スコア(独自算出の注目度): 4.365909537198615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computer vision, Single Image Super-Resolution (SISR) is still a difficult problem. We present ViT-SR, a new technique to improve the performance of a Vision Transformer (ViT) employing a two-stage training strategy. In our method, the model learns rich, generalizable visual representations from the data itself through a self-supervised pretraining phase on a colourization task. The pre-trained model is then adjusted for 4x super-resolution. By predicting the addition of a high-frequency residual image to an initial bicubic interpolation, this design simplifies residual learning. ViT-SR, trained and evaluated on the DIV2K benchmark dataset, achieves an impressive SSIM of 0.712 and PSNR of 22.90 dB. These results demonstrate the efficacy of our two-stage approach and highlight the potential of self-supervised pre-training for complex image restoration tasks. Further improvements may be possible with larger ViT architectures or alternative pretext tasks.
- Abstract(参考訳): コンピュータビジョンでは、Single Image Super-Resolution (SISR) は依然として難しい問題である。
本稿では,2段階トレーニング戦略を用いた視覚変換器(ViT)の性能向上手法であるViT-SRを提案する。
本手法では,カラー化作業における自己教師付き事前学習フェーズを通じて,データ自体からリッチで一般化可能な視覚表現を学習する。
事前訓練されたモデルは4倍超解像度で調整される。
この設計は、初期バイコビック補間に対する高周波残像の追加を予測することにより、残差学習を単純化する。
DIV2Kベンチマークデータセットでトレーニングされ評価されたViT-SRは、0.712とPSNR22.90dBという印象的なSSIMを達成した。
これらの結果は,2段階のアプローチの有効性を示し,複雑な画像復元作業における自己教師付き事前訓練の可能性を強調した。
より大きなViTアーキテクチャや代替のプリテキストタスクでさらなる改善が可能である。
関連論文リスト
- X-DECODE: EXtreme Deblurring with Curriculum Optimization and Domain Equalization [2.348041867134616]
鮮やかなぼやけた画像の復元は、コンピュータビジョンにとって依然として大きな課題だ。
本稿では,カリキュラム学習に基づく新たな学習戦略を導入し,画像の極端劣化に対する深層学習モデルの堅牢性を改善する。
論文 参考訳(メタデータ) (2025-04-10T18:59:26Z) - UniViTAR: Unified Vision Transformer with Native Resolution [37.63387029787732]
UniViTARは、視覚の統一性とネイティブ解像度のシナリオに適した、均質な視覚基盤モデルのファミリーである。
2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入された。
並行して、ハイブリッドトレーニングフレームワークは、凍結教師モデルからの特徴蒸留に伴うシグモイドに基づくコントラスト損失をさらにシナジする。
論文 参考訳(メタデータ) (2025-04-02T14:59:39Z) - High-Resolution Image Synthesis via Next-Token Prediction [19.97037318862443]
連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。
次世代の予測により,最先端の高精細画像合成を実現する。
論文 参考訳(メタデータ) (2024-11-22T09:08:58Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。
深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。
本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文 参考訳(メタデータ) (2022-06-06T13:28:15Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。