論文の概要: ASteISR: Adapting Single Image Super-resolution Pre-trained Model for Efficient Stereo Image Super-resolution
- arxiv url: http://arxiv.org/abs/2407.03598v1
- Date: Thu, 4 Jul 2024 03:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 19:31:32.356117
- Title: ASteISR: Adapting Single Image Super-resolution Pre-trained Model for Efficient Stereo Image Super-resolution
- Title(参考訳): ASTEISR:高効率ステレオ画像超解像のための単一画像超解像事前学習モデル
- Authors: Yuanbo Zhou, Yuyang Xue, Wei Deng, Xinlin Zhang, Qinquan Gao, Tong Tong,
- Abstract要約: ステレオ画像超解像(SteISR)の領域に、事前訓練されたシングルイメージ超解像(SISR)トランスフォーマネットワークを転送する方法を提案する。
具体的には、事前訓練されたSISRトランスネットワークに組み込まれたステレオアダプタと空間アダプタの概念を紹介する。
このトレーニング手法を用いることで、Flickr1024データセット上のステレオ画像を正確に0.79dBの精度で推測するSISRモデルの能力を向上する。
- 参考スコア(独自算出の注目度): 6.154796157653035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in the paradigm of pre-training then fine-tuning in low-level vision tasks, significant challenges persist particularly regarding the increased size of pre-trained models such as memory usage and training time. Another concern often encountered is the unsatisfying results yielded when directly applying pre-trained single-image models to multi-image domain. In this paper, we propose a efficient method for transferring a pre-trained single-image super-resolution (SISR) transformer network to the domain of stereo image super-resolution (SteISR) through a parameter-efficient fine-tuning (PEFT) method. Specifically, we introduce the concept of stereo adapters and spatial adapters which are incorporated into the pre-trained SISR transformer network. Subsequently, the pre-trained SISR model is frozen, enabling us to fine-tune the adapters using stereo datasets along. By adopting this training method, we enhance the ability of the SISR model to accurately infer stereo images by 0.79dB on the Flickr1024 dataset. This method allows us to train only 4.8% of the original model parameters, achieving state-of-the-art performance on four commonly used SteISR benchmarks. Compared to the more complicated full fine-tuning approach, our method reduces training time and memory consumption by 57% and 15%, respectively.
- Abstract(参考訳): 低レベルのビジョンタスクにおいて、事前トレーニングと微調整というパラダイムの進歩にもかかわらず、特にメモリ使用量やトレーニング時間といった事前トレーニングされたモデルのサイズが大きくなることについては、大きな課題が続いている。
もう一つの懸念は、訓練済みのシングルイメージモデルをマルチイメージドメインに直接適用する際に得られる満足できない結果である。
本稿では,SteISR(SteISR)の領域に事前学習した単一像超解像変換回路(SISR)をパラメータ効率のよい微細チューニング(PEFT)手法で転送する効率的な手法を提案する。
具体的には、事前訓練されたSISRトランスネットワークに組み込まれたステレオアダプタと空間アダプタの概念を紹介する。
その後、事前訓練されたSISRモデルが凍結され、ステレオデータセットを使用してアダプタを微調整できる。
このトレーニング手法を用いることで、Flickr1024データセット上のステレオ画像を正確に0.79dBの精度で推測するSISRモデルの能力を向上する。
本手法により,従来のモデルパラメータの4.8%しか訓練できず,一般的な4つのSteISRベンチマーク上での最先端性能を実現することができる。
より複雑なフルチューニング手法と比較して、トレーニング時間とメモリ消費をそれぞれ57%、15%削減する。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - No Data Augmentation? Alternative Regularizations for Effective Training
on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。
特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。
テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-09-04T16:13:59Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - A simple, efficient and scalable contrastive masked autoencoder for
learning visual representations [21.440853288058452]
視覚表現の自己教師型学習のための,シンプルで効率的かつスケーラブルな手法であるCANを紹介する。
我々のフレームワークは、(C)コントラスト学習、(A)マスク付きオートエンコーダ、(N)拡散モデルで使用されるノイズ予測アプローチの最小かつ概念的にクリーンな合成である。
論文 参考訳(メタデータ) (2022-10-30T16:21:22Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - A Two-step-training Deep Learning Framework for Real-time Computational
Imaging without Physics Priors [0.0]
本稿では,物理を前提としないリアルタイムな計算画像作成のための2段階学習用DL(TST-DL)フレームワークを提案する。
まず、モデルを直接学習するために、単一の完全接続層(FCL)をトレーニングする。
そして、このFCLを未訓練のU-Netアーキテクチャで固定固定し、第2ステップのトレーニングを行い、出力画像の忠実性を改善する。
論文 参考訳(メタデータ) (2020-01-10T15:05:43Z) - Fast Adaptation to Super-Resolution Networks via Meta-Learning [24.637337634643885]
本研究では、従来のSRネットワークのアーキテクチャを変更することなく、SISRの性能をさらに向上する機会を観察する。
トレーニング段階では,メタラーニングによりネットワークをトレーニングし,テスト時に任意の入力画像に迅速に適応させることができる。
提案手法は,様々なベンチマークSRデータセット上での従来のSRネットワークの性能を一貫して向上することを示す。
論文 参考訳(メタデータ) (2020-01-09T09:59:02Z) - Characteristic Regularisation for Super-Resolving Face Images [81.84939112201377]
既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。
従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータを用いてモデルをトレーニングすることでこの問題に対処する。
これにより、視覚的特徴を構成することと、画像の解像度を高めることの2つのタスクで、モデルをオーバーストレッチする。
従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
論文 参考訳(メタデータ) (2019-12-30T16:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。