論文の概要: SLIC: A Learned Image Codec Using Structure and Color
- arxiv url: http://arxiv.org/abs/2401.17246v1
- Date: Tue, 30 Jan 2024 18:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 13:41:23.497458
- Title: SLIC: A Learned Image Codec Using Structure and Color
- Title(参考訳): SLIC: 構造と色を用いた学習済みイメージコーデック
- Authors: Srivatsa Prativadibhayankaram, Mahadev Prasad Panda, Thomas Richter,
Heiko Sparenberg, Siegfried F\"o{\ss}el, Andr\'e Kaup
- Abstract要約: 圧縮処理を輝度と彩度に分割した構造と色に基づくエンコーダ(SLIC)を提案する。
ディープラーニングモデルは、YチャネルとUVチャネルのための新しいマルチスケールアーキテクチャで構築されている。
提案モデルの性能を研究・解析するために, 種々の実験を行った。
- 参考スコア(独自算出の注目度): 0.41232474244672235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the structure and color based learned image codec (SLIC) in which
the task of compression is split into that of luminance and chrominance. The
deep learning model is built with a novel multi-scale architecture for Y and UV
channels in the encoder, where the features from various stages are combined to
obtain the latent representation. An autoregressive context model is employed
for backward adaptation and a hyperprior block for forward adaptation. Various
experiments are carried out to study and analyze the performance of the
proposed model, and to compare it with other image codecs. We also illustrate
the advantages of our method through the visualization of channel impulse
responses, latent channels and various ablation studies. The model achieves
Bj{\o}ntegaard delta bitrate gains of 7.5% and 4.66% in terms of MS-SSIM and
CIEDE2000 metrics with respect to other state-of-the-art reference codecs.
- Abstract(参考訳): 本稿では,圧縮作業が輝度と彩度に分割される構造とカラーベース学習画像コーデック(slic)を提案する。
ディープラーニングモデルは、エンコーダ内のyチャネルとuvチャネルのための新しいマルチスケールアーキテクチャで構築されており、さまざまなステージの特徴を組み合わせて潜在表現を得る。
後進適応には自己回帰的文脈モデル、前方適応にはハイパープライアブロックが使用される。
提案したモデルの性能を解析し,他の画像コーデックと比較するために,様々な実験を行った。
また,チャネルインパルス応答,潜伏チャネル,および様々なアブレーション研究の可視化を通じて,本手法の利点を述べる。
このモデルは、他の最先端の参照コーデックに対して、ms-ssimとciede2000の指標で、bj{\o}ntegaardデルタビットレートが7.5%と4.66%向上する。
関連論文リスト
- ColorVideoVDP: A visual difference predictor for image, video and
display distortions [54.34941968179278]
メトリックは、色調コントラスト感度とチャンネル間のコントラストマスキングという新しい心理物理学モデルに基づいて構築されている。
ディスプレイの観察条件、幾何学的、および測光的特性を考慮に入れている。
一般的なビデオストリーミングの歪みと、AR/VRディスプレイに関連する8つの新しい歪みを予測できるように訓練された。
論文 参考訳(メタデータ) (2024-01-21T13:16:33Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - DiffiT: Diffusion Vision Transformers for Image Generation [94.50195596375316]
Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Color Learning for Image Compression [1.2330326247154968]
本稿では,画像圧縮のタスクを2つのサブタスクに分割した新しいディープラーニングモデルアーキテクチャを提案する。
モデルは2つの別々の分岐を持ち、輝度と彩色成分を処理する。
このアプローチのメリットを実証し、パフォーマンスを他のコーデックと比較します。
論文 参考訳(メタデータ) (2023-06-30T08:16:48Z) - Unified Object Detector for Different Modalities based on Vision
Transformers [1.14219428942199]
我々は様々なモードで優れた性能を実現する統一検出器を開発した。
我々の研究は、RGBカメラと深度センサーをシームレスに切り替えるロボット工学の応用シナリオを思い描いている。
我々は,SUN RGB-Dデータセット上での統一モデルの評価を行い,mAP50で類似あるいは良好な性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-03T16:01:04Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。