論文の概要: Generative Adversarial Super-Resolution at the Edge with Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2209.03355v1
- Date: Wed, 7 Sep 2022 10:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:32:19.890048
- Title: Generative Adversarial Super-Resolution at the Edge with Knowledge
Distillation
- Title(参考訳): 知識蒸留によるエッジの逆超解像生成
- Authors: Simone Angarano, Francesco Salvetti, Mauro Martini, Marcello Chiaberge
- Abstract要約: シングルイメージのスーパーソリューションは、信頼できるビジュアルストリームが必要な環境でのロボットタスクをサポートすることができる。
リアルタイム超解法のための効率的な生成逆ネットワークモデルを提案する。
- 参考スコア(独自算出の注目度): 1.3764085113103222
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Single-Image Super-Resolution can support robotic tasks in environments where
a reliable visual stream is required to monitor the mission, handle
teleoperation or study relevant visual details. In this work, we propose an
efficient Generative Adversarial Network model for real-time Super-Resolution.
We adopt a tailored architecture of the original SRGAN and model quantization
to boost the execution on CPU and Edge TPU devices, achieving up to 200 fps
inference. We further optimize our model by distilling its knowledge to a
smaller version of the network and obtain remarkable improvements compared to
the standard training approach. Our experiments show that our fast and
lightweight model preserves considerably satisfying image quality compared to
heavier state-of-the-art models. Finally, we conduct experiments on image
transmission with bandwidth degradation to highlight the advantages of the
proposed system for mobile robotic applications.
- Abstract(参考訳): シングルイメージのスーパーレゾリューションは、ミッションの監視、遠隔操作、関連する視覚詳細の研究のために信頼できるビジュアルストリームを必要とする環境でロボットタスクをサポートする。
本研究では,リアルタイム超解法のための効率的な生成適応型ネットワークモデルを提案する。
我々は、CPUおよびエッジTPUデバイス上での実行を促進するために、元のSRGANとモデル量子化を調整したアーキテクチャを採用し、最大200fpsの推論を実現した。
我々は,その知識をネットワークのより小さなバージョンに蒸留することで,モデルをさらに最適化し,標準的なトレーニングアプローチと比較して顕著な改善を得る。
実験の結果,我々の高速で軽量なモデルでは,高画質のモデルに比べて画質がかなり高いことがわかった。
最後に,提案する移動ロボット用システムの利点を強調するために,帯域劣化を伴う画像伝送実験を行う。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Swift Parameter-free Attention Network for Efficient Super-Resolution [8.365929625909509]
シングルイメージ超解像は、低レベルのコンピュータビジョンにおいて重要な課題である。
Swiftを提案します。
パラメータカウント、推論速度、画像品質のバランスをとるパラメータフリーアテンションネットワーク(SPAN)。
複数のベンチマークでSPANを評価し,画像品質と推論速度の両面で既存の高効率超解像モデルより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-21T18:30:40Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - FMD-cGAN: Fast Motion Deblurring using Conditional Generative
Adversarial Networks [26.878173373199786]
本稿では,1枚の画像の視覚的動きを識別するFMD-cGAN(Fast Motion Deblurring-Conditional Generative Adversarial Network)を提案する。
FMD-cGANは、画像が損なわれた後、印象的な構造的類似性と視覚的外観を提供する。
論文 参考訳(メタデータ) (2021-11-30T14:30:44Z) - Projected GANs Converge Faster [50.23237734403834]
GAN(Generative Adversarial Networks)は高品質な画像を生成するが、訓練は難しい。
生成したサンプルと実際のサンプルを固定された事前訓練された特徴空間に投影することで、これらの問題に大きく取り組みます。
我々の投影GANは画像品質、サンプル効率、収束速度を改善する。
論文 参考訳(メタデータ) (2021-11-01T15:11:01Z) - Attaining Real-Time Super-Resolution for Microscopic Images Using GAN [0.06345523830122167]
本稿では,標準的なGPUを用いた超解像顕微鏡をリアルタイムに実行するための,既存のディープラーニングに基づく手法の改善に焦点をあてる。
生成器のアーキテクチャとSRGANの判別器の単純な変更を提案する。
我々は、我々のモデルが生成した出力の品質と実行時間を比較し、ローエンドのベンチトップやモバイルの顕微鏡のような様々な領域にそのアプリケーションを開放する。
論文 参考訳(メタデータ) (2020-10-09T15:26:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。