論文の概要: Thousand to One: Semantic Prior Modeling for Conceptual Coding
- arxiv url: http://arxiv.org/abs/2103.07131v1
- Date: Fri, 12 Mar 2021 08:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:13:40.809138
- Title: Thousand to One: Semantic Prior Modeling for Conceptual Coding
- Title(参考訳): 1000対1: 概念的コーディングのためのセマンティック事前モデリング
- Authors: Jianhui Chang, Zhenghui Zhao, Lingbo Yang, Chuanmin Jia, Jian Zhang,
Siwei Ma
- Abstract要約: 画像圧縮を極端に少ないものにするための概念符号化方式を提案する。
意味セグメンテーションマップを構造的指導として深層セグメンテーションの事前抽出を行う。
空間独立意味論のチャネル間相関をさらに活用するために, チャネル間エントロピーモデルを提案する。
- 参考スコア(独自算出の注目度): 26.41657489930382
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conceptual coding has been an emerging research topic recently, which encodes
natural images into disentangled conceptual representations for compression.
However, the compression performance of the existing methods is still
sub-optimal due to the lack of comprehensive consideration of rate constraint
and reconstruction quality. To this end, we propose a novel end-to-end semantic
prior modeling-based conceptual coding scheme towards extremely low bitrate
image compression, which leverages semantic-wise deep representations as a
unified prior for entropy estimation and texture synthesis. Specifically, we
employ semantic segmentation maps as structural guidance for extracting deep
semantic prior, which provides fine-grained texture distribution modeling for
better detail construction and higher flexibility in subsequent high-level
vision tasks. Moreover, a cross-channel entropy model is proposed to further
exploit the inter-channel correlation of the spatially independent semantic
prior, leading to more accurate entropy estimation for rate-constrained
training. The proposed scheme achieves an ultra-high 1000x compression ratio,
while still enjoying high visual reconstruction quality and versatility towards
visual processing and analysis tasks.
- Abstract(参考訳): 概念符号化は近年,自然画像を圧縮のための非絡み合った概念表現に符号化する,新たな研究トピックとなっている。
しかし,速度制約や復元品質の総合的な考慮が欠如しているため,既存手法の圧縮性能は相変わらず最適である。
そこで本論文では,エントロピー推定とテクスチャ合成の統一化に先立ち,意味的に深い表現を応用した,極めて低ビットレートな画像圧縮に向けた概念符号化手法を提案する。
具体的には, 構造的ガイダンスとして意味セグメンテーションマップを用い, テクスチャの細粒度分布モデルを提供し, より詳細な構成と, 高レベルの視覚タスクの柔軟性を高める。
さらに、空間的に独立なセマンティック先行のチャネル間相関をさらに活用するために、チャネル間エントロピーモデルを提案し、より正確なエントロピー推定を行う。
提案手法は,視覚処理および解析タスクに対して高い視覚的再構成品質と汎用性を保ちながら,超高1000倍圧縮比を実現する。
関連論文リスト
- An Information-Theoretic Regularizer for Lossy Neural Image Compression [20.939331919455935]
ロスシー画像圧縮ネットワークは、特定の歪み制約に固執しながら、画像の潜伏エントロピーを最小限にすることを目的としている。
本稿では、負条件源エントロピーをトレーニング対象に組み込むことにより、ニューラル画像圧縮タスクの新たな構造正規化手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T05:19:27Z) - Graph-Boosted Attentive Network for Semantic Body Parsing [1.4042211166197214]
本稿では,制約のない環境下で複数の人体を意味部分領域に分解する手法を提案する。
本稿では,特徴階層にまたがる新しい意味的・輪郭的注意機構を備えた畳み込みニューラルネットワークアーキテクチャを提案する。
提案手法は,Pascal Person-Partデータセットの最先端化を実現する。
論文 参考訳(メタデータ) (2024-07-08T13:32:01Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。