論文の概要: End-to-end Compression Towards Machine Vision: Network Architecture
Design and Optimization
- arxiv url: http://arxiv.org/abs/2107.00328v1
- Date: Thu, 1 Jul 2021 09:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 20:29:35.890818
- Title: End-to-end Compression Towards Machine Vision: Network Architecture
Design and Optimization
- Title(参考訳): マシンビジョンに向けたエンドツーエンド圧縮:ネットワークアーキテクチャ設計と最適化
- Authors: Shurun Wang, Zhao Wang, Shiqi Wang, Yan Ye
- Abstract要約: ネットワークアーキテクチャの設計と最適化により,マシンビジョンへの圧縮がさらに改善されることが示されている。
本稿では,機械ビジョンに対するエンドツーエンド圧縮のための逆ボトルネック構造を提案する。
提案手法は,解析性能の観点から,BDレートの大幅な削減を実現していることを示す。
- 参考スコア(独自算出の注目度): 21.64194147628761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The research of visual signal compression has a long history. Fueled by deep
learning, exciting progress has been made recently. Despite achieving better
compression performance, existing end-to-end compression algorithms are still
designed towards better signal quality in terms of rate-distortion
optimization. In this paper, we show that the design and optimization of
network architecture could be further improved for compression towards machine
vision. We propose an inverted bottleneck structure for end-to-end compression
towards machine vision, which specifically accounts for efficient
representation of the semantic information. Moreover, we quest the capability
of optimization by incorporating the analytics accuracy into the optimization
process, and the optimality is further explored with generalized rate-accuracy
optimization in an iterative manner. We use object detection as a showcase for
end-to-end compression towards machine vision, and extensive experiments show
that the proposed scheme achieves significant BD-rate savings in terms of
analysis performance. Moreover, the promise of the scheme is also demonstrated
with strong generalization capability towards other machine vision tasks, due
to the enabling of signal-level reconstruction.
- Abstract(参考訳): 視覚信号圧縮の研究には長い歴史がある。
ディープラーニングによって、近年、エキサイティングな進歩が生まれました。
圧縮性能は向上するが、既存のエンドツーエンド圧縮アルゴリズムは、レート歪みの最適化の観点からも、信号品質の向上を目的として設計されている。
本稿では,ネットワークアーキテクチャの設計と最適化により,マシンビジョンへの圧縮性がさらに向上することを示す。
本稿では,機械ビジョンに対するエンドツーエンド圧縮のための逆ボトルネック構造を提案する。
さらに,最適化プロセスに解析精度を組み込むことで最適化の能力を追求し,その最適性を一般化したレート・精度最適化により反復的に検討する。
我々は,物体検出を機械ビジョンに対するエンドツーエンド圧縮のショーケースとして使用し,提案手法が解析性能において有意なBDレート削減を実現することを示す。
さらに,信号レベル再構成の実現により,他の機械ビジョンタスクに対して,このスキームの約束が強固に一般化できることが示される。
関連論文リスト
- Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Towards Optimal Compression: Joint Pruning and Quantization [1.191194620421783]
本稿では,FITCompressについて紹介する。FITCompressは層単位での混合精度の量子化と非構造化プルーニングを組み合わせた新しい手法である。
コンピュータビジョンと自然言語処理ベンチマークの実験により,提案手法が優れた圧縮性能のトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2023-02-15T12:02:30Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z) - Thousand to One: Semantic Prior Modeling for Conceptual Coding [26.41657489930382]
画像圧縮を極端に少ないものにするための概念符号化方式を提案する。
意味セグメンテーションマップを構造的指導として深層セグメンテーションの事前抽出を行う。
空間独立意味論のチャネル間相関をさらに活用するために, チャネル間エントロピーモデルを提案する。
論文 参考訳(メタデータ) (2021-03-12T08:02:07Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。