論文の概要: Conceptual Compression via Deep Structure and Texture Synthesis
- arxiv url: http://arxiv.org/abs/2011.04976v2
- Date: Thu, 10 Mar 2022 10:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 08:08:46.733690
- Title: Conceptual Compression via Deep Structure and Texture Synthesis
- Title(参考訳): 深層構造とテクスチャ合成による概念圧縮
- Authors: Jianhui Chang, Zhenghui Zhao, Chuanmin Jia, Shiqi Wang, Lingbo Yang,
Qi Mao, Jian Zhang, Siwei Ma
- Abstract要約: 本稿では,視覚データをコンパクトな構造とテクスチャ表現にエンコードし,深層合成方式でデコードする,新しい概念圧縮フレームワークを提案する。
特に,2つの相補的な視覚特徴からなる二重層モデルを用いて画像の圧縮を提案する。
エンコーダ側では、構造地図とテクスチャ表現を個別に抽出して圧縮し、コンパクトで解釈可能な、相互運用可能なビットストリームを生成する。
復号段階では, 階層的融合GAN (HF-GAN) が提案され, テクスチャがデコードされた構造写像に描画される合成パラダイムを学習し, 高品質な再構成を実現する。
- 参考スコア(独自算出の注目度): 42.68994438290913
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing compression methods typically focus on the removal of signal-level
redundancies, while the potential and versatility of decomposing visual data
into compact conceptual components still lack further study. To this end, we
propose a novel conceptual compression framework that encodes visual data into
compact structure and texture representations, then decodes in a deep synthesis
fashion, aiming to achieve better visual reconstruction quality, flexible
content manipulation, and potential support for various vision tasks. In
particular, we propose to compress images by a dual-layered model consisting of
two complementary visual features: 1) structure layer represented by structural
maps and 2) texture layer characterized by low-dimensional deep
representations. At the encoder side, the structural maps and texture
representations are individually extracted and compressed, generating the
compact, interpretable, inter-operable bitstreams. During the decoding stage, a
hierarchical fusion GAN (HF-GAN) is proposed to learn the synthesis paradigm
where the textures are rendered into the decoded structural maps, leading to
high-quality reconstruction with remarkable visual realism. Extensive
experiments on diverse images have demonstrated the superiority of our
framework with lower bitrates, higher reconstruction quality, and increased
versatility towards visual analysis and content manipulation tasks.
- Abstract(参考訳): 既存の圧縮法は、信号レベルの冗長性を取り除くことに重点を置いているが、視覚データをコンパクトな概念的要素に分解する可能性と汎用性はまだ研究されていない。
そこで本研究では,視覚データをコンパクトな構造とテクスチャ表現に符号化し,より優れた視覚再構成品質,フレキシブルなコンテンツ操作,様々な視覚タスクに対する潜在的サポートの実現を目的とした,深層合成方式でデコードする,新しい概念圧縮フレームワークを提案する。
特に,2つの相補的な視覚特徴からなる双層モデルによる画像圧縮を提案する。
1)構造地図で表される構造層、及び
2)低次元深部表現を特徴とするテクスチャ層。
エンコーダ側では、構造マップとテクスチャ表現を個別に抽出して圧縮し、コンパクトで解釈可能な、相互運用可能なビットストリームを生成する。
復号段階では, 階層的融合GAN (HF-GAN) が提案され, テクスチャがデコードされた構造写像に描画される合成パラダイムを学習し, 目覚しい視覚的リアリズムを伴う高品質な再構成を実現する。
多様な画像に対する広範囲な実験により,低ビットレート,高い再構成品質,視覚的解析やコンテンツ操作タスクに対する汎用性が向上した。
関連論文リスト
- Texture-guided Coding for Deep Features [33.05814372247946]
本稿では,特徴とテクスチャを考察し,その特徴に基づくテクスチャ誘導型特徴圧縮戦略を提案する。
この戦略は、特徴層とテクスチャ層から構成されており、特徴層は、特徴選択モジュールと特徴再構成ネットワークを含む、マシンを提供する。
テクスチャ画像の助けを借りて、視覚的なタスクに関連するチャンネルを選択的に圧縮し、送信し、特徴データを低減し、マシンに高品質な機能を提供する。
本手法は,テクスチャの特徴と特徴をフル活用し,特徴冗長性を排除し,人間の高品質なプレビュー画像を再構成し,意思決定を支援する。
論文 参考訳(メタデータ) (2024-05-30T03:38:44Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Implicit-explicit Integrated Representations for Multi-view Video
Compression [40.86402535896703]
マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。
提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。
提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-11-29T04:15:57Z) - Unsupervised Structure-Consistent Image-to-Image Translation [6.282068591820945]
Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
論文 参考訳(メタデータ) (2022-08-24T13:47:15Z) - Image Inpainting via Conditional Texture and Structure Dual Generation [26.97159780261334]
本稿では, 構造制約によるテクスチャ合成とテクスチャ誘導による構造再構築をモデル化した, 画像インペイントのための新しい2ストリームネットワークを提案する。
グローバルな一貫性を高めるため、双方向Gated Feature Fusion (Bi-GFF)モジュールは構造情報とテクスチャ情報を交換・結合するように設計されている。
CelebA、Paris StreetView、Places2データセットの実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-08-22T15:44:37Z) - Generating Diverse Structure for Image Inpainting With Hierarchical
VQ-VAE [74.29384873537587]
本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する,多彩な塗布用2段階モデルを提案する。
CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布ソリューションの多様性を向上するだけでなく,生成した複数の画像の視覚的品質も向上することが示された。
論文 参考訳(メタデータ) (2021-03-18T05:10:49Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。