Fugu-MT 論文翻訳(概要): SLIC: A Learned Image Codec Using Structure and Color

論文の概要: SLIC: A Learned Image Codec Using Structure and Color

arxiv url: http://arxiv.org/abs/2401.17246v1
Date: Tue, 30 Jan 2024 18:39:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 13:41:23.497458
Title: SLIC: A Learned Image Codec Using Structure and Color
Title（参考訳）: SLIC: 構造と色を用いた学習済みイメージコーデック
Authors: Srivatsa Prativadibhayankaram, Mahadev Prasad Panda, Thomas Richter, Heiko Sparenberg, Siegfried F\"o{\ss}el, Andr\'e Kaup
Abstract要約: 圧縮処理を輝度と彩度に分割した構造と色に基づくエンコーダ(SLIC)を提案する。ディープラーニングモデルは、YチャネルとUVチャネルのための新しいマルチスケールアーキテクチャで構築されている。提案モデルの性能を研究・解析するために, 種々の実験を行った。
参考スコア（独自算出の注目度）: 0.41232474244672235
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose the structure and color based learned image codec (SLIC) in which the task of compression is split into that of luminance and chrominance. The deep learning model is built with a novel multi-scale architecture for Y and UV channels in the encoder, where the features from various stages are combined to obtain the latent representation. An autoregressive context model is employed for backward adaptation and a hyperprior block for forward adaptation. Various experiments are carried out to study and analyze the performance of the proposed model, and to compare it with other image codecs. We also illustrate the advantages of our method through the visualization of channel impulse responses, latent channels and various ablation studies. The model achieves Bj{\o}ntegaard delta bitrate gains of 7.5% and 4.66% in terms of MS-SSIM and CIEDE2000 metrics with respect to other state-of-the-art reference codecs.
Abstract（参考訳）: 本稿では,圧縮作業が輝度と彩度に分割される構造とカラーベース学習画像コーデック(slic)を提案する。ディープラーニングモデルは、エンコーダ内のyチャネルとuvチャネルのための新しいマルチスケールアーキテクチャで構築されており、さまざまなステージの特徴を組み合わせて潜在表現を得る。後進適応には自己回帰的文脈モデル、前方適応にはハイパープライアブロックが使用される。提案したモデルの性能を解析し,他の画像コーデックと比較するために,様々な実験を行った。また,チャネルインパルス応答,潜伏チャネル,および様々なアブレーション研究の可視化を通じて,本手法の利点を述べる。このモデルは、他の最先端の参照コーデックに対して、ms-ssimとciede2000の指標で、bj{\o}ntegaardデルタビットレートが7.5%と4.66%向上する。

関連論文リスト

Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
Linear Attention Modeling for Learned Image Compression [20.691429578976763]
実験により,VTM-9.1を15.26%,-15.41%,-17.63%,Kodak,CLIC,TecnickのBDレートで上回り,競合RD性能を実現した。
論文参考訳（メタデータ） (2025-02-09T01:57:17Z)
A Study on the Effect of Color Spaces in Learned Image Compression [14.39599746127334]
本稿では,YUV,LAB,RGBなどの色空間と,学習画像の圧縮に対する効果の比較を行った。先行研究から得られた構造と色に基づく学習画像%(SLIC)は、輝度成分(Y, L)と色成分(UV, AB)の2つの枝から構成される。
論文参考訳（メタデータ） (2024-06-19T17:05:28Z)
ColorVideoVDP: A visual difference predictor for image, video and display distortions [51.29162719944865]
メトリックは、色調コントラスト感度とチャンネル間のコントラストマスキングという新しい心理物理学モデルに基づいて構築されている。ディスプレイの観察条件、幾何学的、および測光的特性を考慮に入れている。一般的なビデオストリーミングの歪みと、AR/VRディスプレイに関連する8つの新しい歪みを予測できるように訓練された。
論文参考訳（メタデータ） (2024-01-21T13:16:33Z)
Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。 LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文参考訳（メタデータ） (2023-12-28T18:59:55Z)
Color Learning for Image Compression [1.2330326247154968]
本稿では,画像圧縮のタスクを2つのサブタスクに分割した新しいディープラーニングモデルアーキテクチャを提案する。モデルは2つの別々の分岐を持ち、輝度と彩色成分を処理する。このアプローチのメリットを実証し、パフォーマンスを他のコーデックと比較します。
論文参考訳（メタデータ） (2023-06-30T08:16:48Z)
DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文参考訳（メタデータ） (2022-06-01T10:39:12Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)
Learned Multi-Resolution Variable-Rate Image Compression with Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文参考訳（メタデータ） (2020-12-31T06:26:56Z)
An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文参考訳（メタデータ） (2020-01-09T14:18:18Z)
Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文参考訳（メタデータ） (2020-01-09T10:37:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。