論文の概要: A Study on the Effect of Color Spaces in Learned Image Compression
- arxiv url: http://arxiv.org/abs/2406.13709v1
- Date: Wed, 19 Jun 2024 17:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:54:50.796847
- Title: A Study on the Effect of Color Spaces in Learned Image Compression
- Title(参考訳): 学習画像圧縮における色空間の影響に関する研究
- Authors: Srivatsa Prativadibhayankaram, Mahadev Prasad Panda, Jürgen Seiler, Thomas Richter, Heiko Sparenberg, Siegfried Fößel, André Kaup,
- Abstract要約: 本稿では,YUV,LAB,RGBなどの色空間と,学習画像の圧縮に対する効果の比較を行った。
先行研究から得られた構造と色に基づく学習画像%(SLIC)は、輝度成分(Y, L)と色成分(UV, AB)の2つの枝から構成される。
- 参考スコア(独自算出の注目度): 14.39599746127334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a comparison between color spaces namely YUV, LAB, RGB and their effect on learned image compression. For this we use the structure and color based learned image codec (SLIC) from our prior work, which consists of two branches - one for the luminance component (Y or L) and another for chrominance components (UV or AB). However, for the RGB variant we input all 3 channels in a single branch, similar to most learned image codecs operating in RGB. The models are trained for multiple bitrate configurations in each color space. We report the findings from our experiments by evaluating them on various datasets and compare the results to state-of-the-art image codecs. The YUV model performs better than the LAB variant in terms of MS-SSIM with a Bj{\o}ntegaard delta bitrate (BD-BR) gain of 7.5\% using VTM intra-coding mode as the baseline. Whereas the LAB variant has a better performance than YUV model in terms of CIEDE2000 having a BD-BR gain of 8\%. Overall, the RGB variant of SLIC achieves the best performance with a BD-BR gain of 13.14\% in terms of MS-SSIM and a gain of 17.96\% in CIEDE2000 at the cost of a higher model complexity.
- Abstract(参考訳): 本稿では,YUV,LAB,RGBなどの色空間と,学習画像の圧縮に対する効果の比較を行った。
このために、我々は、これまでの研究から得られた構造と色に基づく学習画像コーデック(SLIC)を使用し、輝度成分(YまたはL)と色成分(UVまたはAB)の2つの分岐からなる。
しかし、RGBの変種の場合、RGBで動作するほとんどの学習済み画像コーデックと同様に、1つのブランチで3つのチャンネル全てを入力します。
モデルは、各色空間における複数のビットレート構成のために訓練される。
実験の結果を様々なデータセットで評価し,その結果を最先端の画像コーデックと比較した。
YUVモデルは、ベースラインとしてVTMイントラコーディングモードを使用して、Bj{\o}ntegaard delta bitrate (BD-BR)ゲインが7.5\%のMS-SSIMのLABモデルよりも優れた性能を発揮する。
LABの派生型は、CIEDE2000におけるYUVモデルよりも性能が良く、BD-BRのゲインは8\%である。
SLICのRGB版は、MS-SSIMでBD-BRが13.14\%、CIEDE2000で17.96\%、より高いモデル複雑さで最高のパフォーマンスを達成している。
関連論文リスト
- Multispectral Texture Synthesis using RGB Convolutional Neural Networks [2.3213238782019316]
最先端のRGBテクスチャ合成アルゴリズムは、深い特徴の統計によって計算されるスタイル距離に依存している。
本稿では,これらの手法をマルチスペクトルイメージングに拡張する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-21T13:49:54Z) - Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - You Only Need One Color Space: An Efficient Network for Low-light Image Enhancement [50.37253008333166]
低照度画像強調(LLIE)タスクは、劣化した低照度画像から詳細と視覚情報を復元する傾向がある。
水平/垂直インテンシティ(HVI)と呼ばれる新しいトレーニング可能なカラー空間を提案する。
輝度と色をRGBチャネルから切り離して、拡張中の不安定性を緩和するだけでなく、トレーニング可能なパラメータによって異なる照明範囲の低照度画像にも適応する。
論文 参考訳(メタデータ) (2024-02-08T16:47:43Z) - SLIC: A Learned Image Codec Using Structure and Color [0.41232474244672235]
圧縮処理を輝度と彩度に分割した構造と色に基づくエンコーダ(SLIC)を提案する。
ディープラーニングモデルは、YチャネルとUVチャネルのための新しいマルチスケールアーキテクチャで構築されている。
提案モデルの性能を研究・解析するために, 種々の実験を行った。
論文 参考訳(メタデータ) (2024-01-30T18:39:54Z) - Color Learning for Image Compression [1.2330326247154968]
本稿では,画像圧縮のタスクを2つのサブタスクに分割した新しいディープラーニングモデルアーキテクチャを提案する。
モデルは2つの別々の分岐を持ち、輝度と彩色成分を処理する。
このアプローチのメリットを実証し、パフォーマンスを他のコーデックと比較します。
論文 参考訳(メタデータ) (2023-06-30T08:16:48Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Learning Weighting Map for Bit-Depth Expansion within a Rational Range [64.15915577164894]
ビット深化(BDE)は、低ビット深化(LBD)ソースから高ビット深化(HBD)画像を表示する新興技術の1つである。
既存のBDEメソッドは、様々なBDE状況に対して統一的なソリューションを持っていない。
我々は,各画素の重みを求めるためにビット復元ネットワーク(BRNet)を設計し,補充値の比率を合理的範囲内で示す。
論文 参考訳(メタデータ) (2022-04-26T02:27:39Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - A Combined Deep Learning based End-to-End Video Coding Architecture for
YUV Color Space [14.685161934404123]
既存のディープラーニングベースのエンドツーエンドビデオコーディング(DLEC)アーキテクチャのほとんどは、RGBカラーフォーマット用に特別に設計されています。
本稿では、YUV 4:2:0を効果的にサポートするビデオコーディング用の新しいDLECアーキテクチャを導入し、そのパフォーマンスをHEVC標準と比較する。
論文 参考訳(メタデータ) (2021-04-01T23:41:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。