論文の概要: Input Resolution Downsizing as a Compression Technique for Vision Deep Learning Systems
- arxiv url: http://arxiv.org/abs/2504.03749v1
- Date: Tue, 01 Apr 2025 19:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:33.609677
- Title: Input Resolution Downsizing as a Compression Technique for Vision Deep Learning Systems
- Title(参考訳): 視覚深層学習システムにおける圧縮技術としての入力分解能の縮小
- Authors: Jeremy Morlier, Mathieu Leonardon, Vincent Gripon,
- Abstract要約: 入力分解能の低下が分類とセマンティックセグメンテーションの両方のタスク、およびコンブネットとトランスフォーマーベースのアーキテクチャに与える影響について検討する。
標準ベンチマークによる実験結果から,本手法の可能性を強調し,計算とメモリの要求を大幅に低減し,競争性能を向上する。
本研究は,視覚応用のためのモデル圧縮技術の広い視野において,入力分解能の低減が実現可能かつ有望な方向であることを示す。
- 参考スコア(独自算出の注目度): 1.6932009464531739
- License:
- Abstract: Model compression is a critical area of research in deep learning, in particular in vision, driven by the need to lighten models memory or computational footprints. While numerous methods for model compression have been proposed, most focus on pruning, quantization, or knowledge distillation. In this work, we delve into an under-explored avenue: reducing the resolution of the input image as a complementary approach to other types of compression. By systematically investigating the impact of input resolution reduction, on both tasks of classification and semantic segmentation, and on convnets and transformer-based architectures, we demonstrate that this strategy provides an interesting alternative for model compression. Our experimental results on standard benchmarks highlight the potential of this method, achieving competitive performance while significantly reducing computational and memory requirements. This study establishes input resolution reduction as a viable and promising direction in the broader landscape of model compression techniques for vision applications.
- Abstract(参考訳): モデル圧縮は、ディープラーニング、特に視覚における重要な研究領域であり、モデルメモリや計算フットプリントを軽量化する必要がある。
モデル圧縮のための多くの方法が提案されているが、ほとんどはプルーニング、量子化、知識蒸留に焦点を当てている。
本研究では,他の圧縮の相補的なアプローチとして,入力画像の解像度を下げる,未探索の経路を探索する。
入力分解能の低下が分類とセマンティックセグメンテーションの両方のタスク、およびコンブネットとトランスフォーマーベースのアーキテクチャに与える影響を体系的に研究することにより、この戦略がモデル圧縮の興味深い代替手段を提供することを示す。
標準ベンチマークによる実験結果から,本手法の可能性を強調し,計算とメモリの要求を大幅に低減し,競争性能を向上する。
本研究は,視覚応用のためのモデル圧縮技術の広い視野において,入力分解能の低減が実現可能かつ有望な方向であることを示す。
関連論文リスト
- Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Model Compression Techniques in Biometrics Applications: A Survey [5.452293986561535]
ディープラーニングアルゴリズムは人類のタスク自動化能力を大きく強化してきた。
これらのモデルの性能の大幅な改善は、その複雑さの増大と非常に相関している。
これにより、性能を著しく低下させることなく、ディープラーニングモデルの計算コストとメモリコストを大幅に削減する圧縮技術の開発につながった。
論文 参考訳(メタデータ) (2024-01-18T17:06:21Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Learned Image Compression for Machine Perception [17.40776913809306]
人間の知覚と機械知覚の両方に適した圧縮フォーマットを生成するフレームワークを開発する。
コアビジョンタスクの圧縮と性能を同時に最適化する表現が学習可能であることを示す。
論文 参考訳(メタデータ) (2021-11-03T14:39:09Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。