論文の概要: Generative Visual Compression: A Review
- arxiv url: http://arxiv.org/abs/2402.02140v1
- Date: Sat, 3 Feb 2024 13:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:50:35.744972
- Title: Generative Visual Compression: A Review
- Title(参考訳): Generative Visual Compression: レビュー
- Authors: Bolin Chen, Shanzhi Yin, Peilin Chen, Shiqi Wang and Yan Ye
- Abstract要約: 生成的視覚圧縮の最近の進歩を概観し、大きな可能性と有望な応用について述べる。
特に、深層生成モデルを用いた視覚データ圧縮手法を概観し、コンパクトな表現と高忠実度再構成をいかに実現できるかを概観する。
我々は、機械ビジョンとインテリジェント分析のための関連生成圧縮技術を一般化する。
- 参考スコア(独自算出の注目度): 15.80228258488644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence Generated Content (AIGC) is leading a new technical
revolution for the acquisition of digital content and impelling the progress of
visual compression towards competitive performance gains and diverse
functionalities over traditional codecs. This paper provides a thorough review
on the recent advances of generative visual compression, illustrating great
potentials and promising applications in ultra-low bitrate communication,
user-specified reconstruction/filtering, and intelligent machine analysis. In
particular, we review the visual data compression methodologies with deep
generative models, and summarize how compact representation and high-fidelity
reconstruction could be actualized via generative techniques. In addition, we
generalize related generative compression technologies for machine vision and
intelligent analytics. Finally, we discuss the fundamental challenges on
generative visual compression techniques and envision their future research
directions.
- Abstract(参考訳): aigc(artificial intelligence generated content)は、デジタルコンテンツの獲得と、従来のコーデックに比べて競争力のあるパフォーマンス向上と多様な機能へのビジュアル圧縮の進歩を促す新しい技術的革命を導いている。
本稿では, 生成的視覚圧縮の最近の進歩を概観し, 超低ビットレート通信, ユーザ指定再構成・フィルタリング, インテリジェントマシン解析における将来的な応用について述べる。
特に,深層生成モデルを用いたビジュアルデータ圧縮手法を概観し,コンパクト表現と高忠実度再構築が生成手法によって実現可能かどうかを概説する。
さらに,機械ビジョンとインテリジェント解析のための関連する生成圧縮技術を一般化する。
最後に,生成的視覚圧縮技術の基本課題と今後の研究方向性について考察する。
関連論文リスト
- Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z) - Feedback Recurrent Autoencoder for Video Compression [14.072596106425072]
低レイテンシモードで動作する学習ビデオ圧縮のための新しいネットワークアーキテクチャを提案する。
提案手法は,高分解能UVGデータセット上でのMS-SSIM/レート性能を示す。
論文 参考訳(メタデータ) (2020-04-09T02:58:07Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。