論文の概要: JPD-SE: High-Level Semantics for Joint Perception-Distortion Enhancement
in Image Compression
- arxiv url: http://arxiv.org/abs/2005.12810v3
- Date: Tue, 9 Aug 2022 05:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:00:06.829718
- Title: JPD-SE: High-Level Semantics for Joint Perception-Distortion Enhancement
in Image Compression
- Title(参考訳): JPD-SE:画像圧縮における関節知覚歪改善のための高レベルセマンティクス
- Authors: Shiyu Duan, Huaijin Chen, Jinwei Gu
- Abstract要約: 本稿では,画像の高レベルなセマンティクスを活用可能な汎用フレームワークを提案し,知覚品質と歪みの協調最適化について検討する。
本稿では、意味認識コーデックに意味の力を活用して、R-PD(R-perception-Distortion)性能を協調的に最適化する3相学習手法を提案する。
- 参考スコア(独自算出の注目度): 11.668382772425913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While humans can effortlessly transform complex visual scenes into simple
words and the other way around by leveraging their high-level understanding of
the content, conventional or the more recent learned image compression codecs
do not seem to utilize the semantic meanings of visual content to their full
potential. Moreover, they focus mostly on rate-distortion and tend to
underperform in perception quality especially in low bitrate regime, and often
disregard the performance of downstream computer vision algorithms, which is a
fast-growing consumer group of compressed images in addition to human viewers.
In this paper, we (1) present a generic framework that can enable any image
codec to leverage high-level semantics and (2) study the joint optimization of
perception quality and distortion. Our idea is that given any codec, we utilize
high-level semantics to augment the low-level visual features extracted by it
and produce essentially a new, semantic-aware codec. We propose a three-phase
training scheme that teaches semantic-aware codecs to leverage the power of
semantic to jointly optimize rate-perception-distortion (R-PD) performance. As
an additional benefit, semantic-aware codecs also boost the performance of
downstream computer vision algorithms. To validate our claim, we perform
extensive empirical evaluations and provide both quantitative and qualitative
results.
- Abstract(参考訳): 人間は、複雑な視覚シーンを、コンテンツに対する高レベルな理解を活用することで、簡単には単純な言葉に変換することができるが、従来の画像圧縮コーデックは、視覚コンテンツの意味を最大限に活用していないようだ。
さらに、主にレート歪みに着目し、特にビットレートの低い環境では知覚品質が劣る傾向にあり、人間の視聴者に加えて、急速に成長する圧縮画像群である下流コンピュータビジョンアルゴリズムの性能を無視する傾向にある。
本稿では,(1)画像コーデックが高レベルなセマンティクスを活用できる汎用フレームワークを提案し,(2)知覚品質と歪みの協調最適化について検討する。
我々の考えは、どんなコーデックであっても、我々はハイレベルなセマンティックスを利用して、それによって抽出された低レベルな視覚的特徴を強化し、本質的に新しいセマンティックなコーデックを生成するというものである。
本稿では,意味認識コーデックに意味の力を活用してR-PD性能を最適化する3段階学習手法を提案する。
追加の利点として、セマンティックアウェアコーデックは下流のコンピュータビジョンアルゴリズムのパフォーマンスを高める。
当社の主張を検証するために,広範な実証的評価を行い,定量的・質的結果を提供する。
関連論文リスト
- Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Towards Semantic Communications: Deep Learning-Based Image Semantic
Coding [42.453963827153856]
我々は,よりセマンティクスや帯域幅に敏感な画像データに対するセマンティクス通信を考案した。
画素レベルを超えて画像を符号化する強化学習に基づく適応意味符号化(RL-ASC)手法を提案する。
実験の結果,提案したRL-ASCはノイズ耐性があり,視覚的に快適でセマンティックな一貫した画像の再構成が可能であった。
論文 参考訳(メタデータ) (2022-08-08T12:29:55Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Learned Image Compression for Machine Perception [17.40776913809306]
人間の知覚と機械知覚の両方に適した圧縮フォーマットを生成するフレームワークを開発する。
コアビジョンタスクの圧縮と性能を同時に最適化する表現が学習可能であることを示す。
論文 参考訳(メタデータ) (2021-11-03T14:39:09Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。