論文の概要: Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition
- arxiv url: http://arxiv.org/abs/2112.09532v2
- Date: Wed, 10 Jul 2024 12:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 22:45:35.512958
- Title: Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition
- Title(参考訳): 画素蒸留:低解像度画像認識のための新しい知識蒸留方式
- Authors: Guangyu Guo, Dingwen Zhang, Longfei Han, Nian Liu, Ming-Ming Cheng, Junwei Han,
- Abstract要約: アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
- 参考スコア(独自算出の注目度): 124.80263629921498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous knowledge distillation (KD) methods mostly focus on compressing network architectures, which is not thorough enough in deployment as some costs like transmission bandwidth and imaging equipment are related to the image size. Therefore, we propose Pixel Distillation that extends knowledge distillation into the input level while simultaneously breaking architecture constraints. Such a scheme can achieve flexible cost control for deployment, as it allows the system to adjust both network architecture and image quality according to the overall requirement of resources. Specifically, we first propose an input spatial representation distillation (ISRD) mechanism to transfer spatial knowledge from large images to student's input module, which can facilitate stable knowledge transfer between CNN and ViT. Then, a Teacher-Assistant-Student (TAS) framework is further established to disentangle pixel distillation into the model compression stage and input compression stage, which significantly reduces the overall complexity of pixel distillation and the difficulty of distilling intermediate knowledge. Finally, we adapt pixel distillation to object detection via an aligned feature for preservation (AFP) strategy for TAS, which aligns output dimensions of detectors at each stage by manipulating features and anchors of the assistant. Comprehensive experiments on image classification and object detection demonstrate the effectiveness of our method. Code is available at https://github.com/gyguo/PixelDistillation.
- Abstract(参考訳): 従来の知識蒸留(KD)法は主にネットワークアーキテクチャの圧縮に重点を置いており、伝送帯域幅や撮像装置などのコストが画像サイズに関係しているため、配備に十分ではない。
そこで本研究では,アーキテクチャ制約を同時に破りながら,知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
具体的には,まず,大規模な画像から学生の入力モジュールに空間知識を伝達する空間表現蒸留(ISRD)機構を提案する。
そして、モデル圧縮段階と入力圧縮段階とに画素蒸留を混在させることにより、画素蒸留の全体的な複雑さを著しく低減し、中間知識の蒸留が困難になるように、TAS(Teacher-Assistant-Student)フレームワークを更に確立する。
最後に,TASの保存(AFP)戦略の整列化による物体検出に画素蒸留を適用し,各ステージにおける検出器の出力寸法をアシスタントの特徴とアンカーの操作により整列させる。
画像分類と物体検出に関する総合的な実験により,本手法の有効性が示された。
コードはhttps://github.com/gyguo/PixelDistillation.comから入手できる。
関連論文リスト
- Resource Efficient Perception for Vision Systems [0.0]
本研究では,高解像度画像に対するメモリ効率のパッチベース処理を活用することにより,これらの課題を軽減するためのフレームワークを提案する。
ローカルなパッチ情報と共にグローバルなコンテキスト表現が組み込まれており、画像の内容の包括的な理解を可能にする。
分類,オブジェクト検出,セグメンテーションにまたがる7つのベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-05-12T05:33:00Z) - EPNet: An Efficient Pyramid Network for Enhanced Single-Image
Super-Resolution with Reduced Computational Requirements [12.439807086123983]
シングルイメージ超解像(SISR)は、ディープラーニングの統合によって大幅に進歩した。
本稿では,エッジ分割ピラミッドモジュール (ESPM) とパノラマ特徴抽出モジュール (PFEM) を調和して結合し,既存の手法の限界を克服する,EPNet (Efficient Pyramid Network) を提案する。
論文 参考訳(メタデータ) (2023-12-20T19:56:53Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [63.54342601757723]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Super-Resolution of License Plate Images Using Attention Modules and
Sub-Pixel Convolution Layers [3.8831062015253055]
監視画像における構造的特徴およびテクスチャ的特徴の検出を強化するために,Single-Image Super-Resolution (SISR) アプローチを導入する。
提案手法は,サブピクセルの畳み込み層と,光学的文字認識(OCR)モデルを用いて特徴抽出を行うロス関数を含む。
以上の結果から, これらの低解像度合成画像の再構成手法は, 定量化と定性化の両面で, 既存の画像よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-27T00:17:19Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Rich Feature Distillation with Feature Affinity Module for Efficient
Image Dehazing [1.1470070927586016]
この作業は、単一イメージのヘイズ除去のためのシンプルで軽量で効率的なフレームワークを導入します。
我々は、ヘテロジニアス知識蒸留の概念を用いて、軽量な事前学習された超解像モデルから豊富な「暗黒知識」情報を利用する。
本実験は, RESIDE-Standardデータセットを用いて, 合成および実世界のドメインに対する我々のフレームワークの堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-13T18:32:44Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。