Fugu-MT 論文翻訳(概要): Thousand to One: Semantic Prior Modeling for Conceptual Coding

論文の概要: Thousand to One: Semantic Prior Modeling for Conceptual Coding

arxiv url: http://arxiv.org/abs/2103.07131v1
Date: Fri, 12 Mar 2021 08:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-15 13:13:40.809138
Title: Thousand to One: Semantic Prior Modeling for Conceptual Coding
Title（参考訳）: 1000対1: 概念的コーディングのためのセマンティック事前モデリング
Authors: Jianhui Chang, Zhenghui Zhao, Lingbo Yang, Chuanmin Jia, Jian Zhang, Siwei Ma
Abstract要約: 画像圧縮を極端に少ないものにするための概念符号化方式を提案する。意味セグメンテーションマップを構造的指導として深層セグメンテーションの事前抽出を行う。空間独立意味論のチャネル間相関をさらに活用するために, チャネル間エントロピーモデルを提案する。
参考スコア（独自算出の注目度）: 26.41657489930382
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Conceptual coding has been an emerging research topic recently, which encodes natural images into disentangled conceptual representations for compression. However, the compression performance of the existing methods is still sub-optimal due to the lack of comprehensive consideration of rate constraint and reconstruction quality. To this end, we propose a novel end-to-end semantic prior modeling-based conceptual coding scheme towards extremely low bitrate image compression, which leverages semantic-wise deep representations as a unified prior for entropy estimation and texture synthesis. Specifically, we employ semantic segmentation maps as structural guidance for extracting deep semantic prior, which provides fine-grained texture distribution modeling for better detail construction and higher flexibility in subsequent high-level vision tasks. Moreover, a cross-channel entropy model is proposed to further exploit the inter-channel correlation of the spatially independent semantic prior, leading to more accurate entropy estimation for rate-constrained training. The proposed scheme achieves an ultra-high 1000x compression ratio, while still enjoying high visual reconstruction quality and versatility towards visual processing and analysis tasks.
Abstract（参考訳）: 概念符号化は近年,自然画像を圧縮のための非絡み合った概念表現に符号化する,新たな研究トピックとなっている。しかし,速度制約や復元品質の総合的な考慮が欠如しているため,既存手法の圧縮性能は相変わらず最適である。そこで本論文では,エントロピー推定とテクスチャ合成の統一化に先立ち,意味的に深い表現を応用した,極めて低ビットレートな画像圧縮に向けた概念符号化手法を提案する。具体的には, 構造的ガイダンスとして意味セグメンテーションマップを用い, テクスチャの細粒度分布モデルを提供し, より詳細な構成と, 高レベルの視覚タスクの柔軟性を高める。さらに、空間的に独立なセマンティック先行のチャネル間相関をさらに活用するために、チャネル間エントロピーモデルを提案し、より正確なエントロピー推定を行う。提案手法は,視覚処理および解析タスクに対して高い視覚的再構成品質と汎用性を保ちながら,超高1000倍圧縮比を実現する。

関連論文リスト

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。 VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文参考訳（メタデータ） (2025-11-28T17:26:34Z)
GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文参考訳（メタデータ） (2025-11-18T06:40:26Z)
Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。 KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文参考訳（メタデータ） (2025-10-23T07:12:26Z)
Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。最先端拡散法に比べて客観的・主観的性能に優れる。
論文参考訳（メタデータ） (2025-05-13T06:51:23Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文参考訳（メタデータ） (2025-02-24T03:20:44Z)
An Information-Theoretic Regularizer for Lossy Neural Image Compression [20.939331919455935]
ロスシー画像圧縮ネットワークは、特定の歪み制約に固執しながら、画像の潜伏エントロピーを最小限にすることを目的としている。本稿では、負条件源エントロピーをトレーニング対象に組み込むことにより、ニューラル画像圧縮タスクの新たな構造正規化手法を提案する。
論文参考訳（メタデータ） (2024-11-23T05:19:27Z)
Graph-Boosted Attentive Network for Semantic Body Parsing [1.4042211166197214]
本稿では,制約のない環境下で複数の人体を意味部分領域に分解する手法を提案する。本稿では,特徴階層にまたがる新しい意味的・輪郭的注意機構を備えた畳み込みニューラルネットワークアーキテクチャを提案する。提案手法は,Pascal Person-Partデータセットの最先端化を実現する。
論文参考訳（メタデータ） (2024-07-08T13:32:01Z)
Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文参考訳（メタデータ） (2024-02-28T06:07:07Z)
JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文参考訳（メタデータ） (2023-12-20T08:05:57Z)
Corner-to-Center Long-range Context Model for Efficient Learned Image Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文参考訳（メタデータ） (2023-11-29T21:40:28Z)
Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。 ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文参考訳（メタデータ） (2023-07-05T13:17:14Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文参考訳（メタデータ） (2021-12-08T13:02:53Z)
Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文参考訳（メタデータ） (2020-11-19T08:15:10Z)
Towards Analysis-friendly Face Representation with Scalable Feature and Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文参考訳（メタデータ） (2020-04-21T14:32:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。