論文の概要: Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision
- arxiv url: http://arxiv.org/abs/2312.15622v1
- Date: Mon, 25 Dec 2023 05:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:16:57.923643
- Title: Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision
- Title(参考訳): StyleGANによるスケーラブルな顔画像符号化:人間と機械の協調視覚の圧縮に向けて
- Authors: Qi Mao, Chongyu Wang, Meng Wang, Shiqi Wang, Ruijie Chen, Libiao Jin,
Siwei Ma
- Abstract要約: 先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
- 参考スコア(独自算出の注目度): 39.50768518548343
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The accelerated proliferation of visual content and the rapid development of
machine vision technologies bring significant challenges in delivering visual
data on a gigantic scale, which shall be effectively represented to satisfy
both human and machine requirements. In this work, we investigate how
hierarchical representations derived from the advanced generative prior
facilitate constructing an efficient scalable coding paradigm for human-machine
collaborative vision. Our key insight is that by exploiting the StyleGAN prior,
we can learn three-layered representations encoding hierarchical semantics,
which are elaborately designed into the basic, middle, and enhanced layers,
supporting machine intelligence and human visual perception in a progressive
fashion. With the aim of achieving efficient compression, we propose the
layer-wise scalable entropy transformer to reduce the redundancy between
layers. Based on the multi-task scalable rate-distortion objective, the
proposed scheme is jointly optimized to achieve optimal machine analysis
performance, human perception experience, and compression ratio. We validate
the proposed paradigm's feasibility in face image compression. Extensive
qualitative and quantitative experimental results demonstrate the superiority
of the proposed paradigm over the latest compression standard Versatile Video
Coding (VVC) in terms of both machine analysis as well as human perception at
extremely low bitrates ($<0.01$ bpp), offering new insights for human-machine
collaborative compression.
- Abstract(参考訳): 視覚コンテンツの急速な増殖と機械ビジョン技術の急速な発展は、人間の要求と機械の要求の両方を満たすために効果的に表現される巨大なスケールで視覚データを提供する上で大きな課題をもたらす。
本研究では,人間と機械の協調的ビジョンのための効率的なスケーラブルなコーディングパラダイムの構築を,高度な生成前処理から導出した階層表現がいかに容易かを検討する。
私たちの重要な洞察は、スタイルガンを事前に活用することで、基本層、中層層、強化層に精巧にデザインされた階層的意味論をエンコードした3層表現を学習し、機械知能と人間の視覚認識を進歩的に支援できるということです。
効率的な圧縮を実現するために, 層間冗長性を低減するために, 層間拡張エントロピートランスを提案する。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
顔画像圧縮におけるパラダイムの有効性を検証する。
大規模定性的かつ定量的な実験結果から、機械解析と極低ビットレート(<0.01$bpp)での人間の知覚の両方の観点から、最新の圧縮標準であるVersatile Video Coding(VVC)よりも提案パラダイムの方が優れていることが示され、人間と機械の協調圧縮の新しい洞察を提供する。
関連論文リスト
- Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Machine Perception-Driven Image Compression: A Layered Generative
Approach [32.23554195427311]
階層型生成画像圧縮モデルを提案する。
タスクに依存しない学習に基づく圧縮モデルを提案し、様々な圧縮されたドメインベースの分析タスクを効果的にサポートする。
圧縮比、再構成画像品質、下流知覚性能の最良のバランス点を得るために、共同最適化スケジュールを採用する。
論文 参考訳(メタデータ) (2023-04-14T02:12:38Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。