Fugu-MT 論文翻訳(概要): EGIC: Enhanced Low-Bit-Rate Generative Image Compression Guided by Semantic Segmentation

論文の概要: EGIC: Enhanced Low-Bit-Rate Generative Image Compression Guided by Semantic Segmentation

arxiv url: http://arxiv.org/abs/2309.03244v3
Date: Tue, 16 Jul 2024 12:34:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 23:28:28.625880
Title: EGIC: Enhanced Low-Bit-Rate Generative Image Compression Guided by Semantic Segmentation
Title（参考訳）: EGIC:セマンティックセグメンテーションによる低ビットレート生成画像圧縮の強化
Authors: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller,
Abstract要約: EGICは、単一のモデルから歪み知覚曲線を効率的にトラバースできる拡張生成画像圧縮法である。 EGICは実装が簡単で、非常に軽量であり、優れた特性を提供する。
参考スコア（独自算出の注目度）: 0.030448596365296413
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce EGIC, an enhanced generative image compression method that allows traversing the distortion-perception curve efficiently from a single model. EGIC is based on two novel building blocks: i) OASIS-C, a conditional pre-trained semantic segmentation-guided discriminator, which provides both spatially and semantically-aware gradient feedback to the generator, conditioned on the latent image distribution, and ii) Output Residual Prediction (ORP), a retrofit solution for multi-realism image compression that allows control over the synthesis process by adjusting the impact of the residual between an MSE-optimized and GAN-optimized decoder output on the GAN-based reconstruction. Together, EGIC forms a powerful codec, outperforming state-of-the-art diffusion and GAN-based methods (e.g., HiFiC, MS-ILLM, and DIRAC-100), while performing almost on par with VTM-20.0 on the distortion end. EGIC is simple to implement, very lightweight, and provides excellent interpolation characteristics, which makes it a promising candidate for practical applications targeting the low bit range.
Abstract（参考訳）: 本稿では,1つのモデルから歪み知覚曲線を効率的にトラバースできる改良された生成画像圧縮手法EGICを紹介する。 EGICは2つの新しいビルディングブロックに基づいている。一)OASIS-Cは、空間的及び意味的に認識された勾配フィードバックをジェネレータに提供し、潜画像分布を条件とした条件付き訓練済みセマンティックセマンティクス誘導識別装置である。二出力残差予測(英: Output Residual Prediction、ORP)とは、MSE最適化とGAN最適化デコーダ出力の残差がGAN再構成に与える影響を調整することにより、合成過程の制御を可能にするマルチリアリズム画像圧縮の逆最適化ソリューションである。共に、EGICは強力なコーデックを形成し、最先端の拡散とGANベースの手法(例えば、HiFiC、MS-ILLM、DIRAC-100)を上回り、歪み端のVTM-20.0とほぼ同等に動作する。 EGICは実装が簡単で、非常に軽量であり、補間特性に優れたので、低ビット範囲をターゲットとした実用的なアプリケーションには有望な候補となる。

関連論文リスト

Content Adaptive based Motion Alignment Framework for Learned Video Compression [72.13599533975413]
本稿では,コンテンツ適応型モーションアライメントフレームワークを提案する。まず、粗いオフセット予測とマスク変調により動き補償を洗練させる2段階の流動誘導変形防止機構を導入する。第2に,基準品質に基づいて歪み重みを調整するマルチ参照品質認識戦略を提案する。第3に,スムーズな動き推定を得るために,フレームを大きさと解像度でダウンサンプルするトレーニングフリーモジュールを統合する。
論文参考訳（メタデータ） (2025-12-15T02:51:47Z)
Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文参考訳（メタデータ） (2025-11-14T06:27:58Z)
SYNAPSE: Synergizing an Adapter and Finetuning for High-Fidelity EEG Synthesis from a CLIP-Aligned Encoder [0.0]
SynAPSEは、脳波信号表現学習と高忠実度画像合成を橋渡しする2段階のフレームワークである。本手法はCVPR40データセット上で,意味的コヒーレントな潜在空間と最先端の知覚的忠実性を実現する。
論文参考訳（メタデータ） (2025-11-11T02:53:49Z)
Compressive Imaging Reconstruction via Tensor Decomposed Multi-Resolution Grid Encoding [50.54887630778593]
圧縮画像再構成(CI)は, 圧縮された低次元画像から高次元画像を復元することを目的としている。既存の教師なし表現は、表現能力と効率の間の望ましいバランスを達成するのに苦労する。本稿では,CI再構成のための非教師なし連続表現フレームワークである分割多重解像度グリッド符号化(GridTD)を提案する。
論文参考訳（メタデータ） (2025-07-10T12:36:20Z)
Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。 CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文参考訳（メタデータ） (2025-05-19T14:13:14Z)
Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。最先端拡散法に比べて客観的・主観的性能に優れる。
論文参考訳（メタデータ） (2025-05-13T06:51:23Z)
Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption [52.82508784748278]
本稿では,制御生成画像圧縮フレームワークである制御-GICを提案する。制御-GICは、高忠実度と一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。符号化符号に従って歴史的多粒度表現を検索できる条件デコーダを開発し、条件付き確率の形式化において階層的特徴を再構築する。
論文参考訳（メタデータ） (2024-06-02T14:22:09Z)
DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文参考訳（メタデータ） (2023-12-12T06:07:21Z)
AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文参考訳（メタデータ） (2023-07-12T11:32:02Z)
Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。 ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文参考訳（メタデータ） (2023-07-05T13:17:14Z)
GAN-based Image Compression with Improved RDO Process [20.00340507091567]
速度歪みの最適化を改良した新しいGANベースの画像圧縮手法を提案する。これを実現するために、DisTSとMS-SSIMのメトリクスを用いて、色、テクスチャ、構造における知覚的変性を測定する。提案手法は,既存のGAN法および最先端ハイブリッド(VVC)よりも優れている。
論文参考訳（メタデータ） (2023-06-18T03:21:11Z)
Cycle-Interactive Generative Adversarial Network for Robust Unsupervised Low-Light Enhancement [109.335317310485]
CIGAN(Cycle-Interactive Generative Adversarial Network)は、低照度画像間の照明分布の転送を改善できるだけでなく、詳細な信号も操作できる。特に、提案した低照度誘導変換は、低照度GAN生成器から劣化GAN生成器へ、低照度画像の特徴をフォワードする。
論文参考訳（メタデータ） (2022-07-03T06:37:46Z)
Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。 HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文参考訳（メタデータ） (2022-05-20T11:37:44Z)
One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文参考訳（メタデータ） (2022-03-17T13:03:06Z)
Multi-Channel Convolutional Analysis Operator Learning for Dual-Energy CT Reconstruction [108.06731611196291]
我々は,多チャンネル畳み込み解析演算子学習法(MCAOL)を開発した。本研究では,低エネルギー,高エネルギーで減衰画像を共同で再構成する最適化手法を提案する。
論文参考訳（メタデータ） (2022-03-10T14:22:54Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)
Orthogonal Features Based EEG Signals Denoising Using Fractional and Compressed One-Dimensional CNN AutoEncoder [3.8580784887142774]
本稿では脳波(EEG)信号の分数的1次元畳み込みニューラルネットワーク(CNN)オートエンコーダを提案する。脳波信号は、主に筋肉アーチファクト(MA)によって、記録過程中にしばしばノイズによって汚染される。
論文参考訳（メタデータ） (2021-04-16T13:58:05Z)
Generalized Octave Convolutions for Learned Multi-Frequency Image Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2020-02-24T01:35:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。