Fugu-MT 論文翻訳(概要): A Study on the Effect of Color Spaces in Learned Image Compression

論文の概要: A Study on the Effect of Color Spaces in Learned Image Compression

arxiv url: http://arxiv.org/abs/2406.13709v1
Date: Wed, 19 Jun 2024 17:05:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 18:54:50.796847
Title: A Study on the Effect of Color Spaces in Learned Image Compression
Title（参考訳）: 学習画像圧縮における色空間の影響に関する研究
Authors: Srivatsa Prativadibhayankaram, Mahadev Prasad Panda, Jürgen Seiler, Thomas Richter, Heiko Sparenberg, Siegfried Fößel, André Kaup,
Abstract要約: 本稿では,YUV,LAB,RGBなどの色空間と,学習画像の圧縮に対する効果の比較を行った。先行研究から得られた構造と色に基づく学習画像%(SLIC)は、輝度成分(Y, L)と色成分(UV, AB)の2つの枝から構成される。
参考スコア（独自算出の注目度）: 14.39599746127334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present a comparison between color spaces namely YUV, LAB, RGB and their effect on learned image compression. For this we use the structure and color based learned image codec (SLIC) from our prior work, which consists of two branches - one for the luminance component (Y or L) and another for chrominance components (UV or AB). However, for the RGB variant we input all 3 channels in a single branch, similar to most learned image codecs operating in RGB. The models are trained for multiple bitrate configurations in each color space. We report the findings from our experiments by evaluating them on various datasets and compare the results to state-of-the-art image codecs. The YUV model performs better than the LAB variant in terms of MS-SSIM with a Bj{\o}ntegaard delta bitrate (BD-BR) gain of 7.5\% using VTM intra-coding mode as the baseline. Whereas the LAB variant has a better performance than YUV model in terms of CIEDE2000 having a BD-BR gain of 8\%. Overall, the RGB variant of SLIC achieves the best performance with a BD-BR gain of 13.14\% in terms of MS-SSIM and a gain of 17.96\% in CIEDE2000 at the cost of a higher model complexity.
Abstract（参考訳）: 本稿では,YUV,LAB,RGBなどの色空間と,学習画像の圧縮に対する効果の比較を行った。このために、我々は、これまでの研究から得られた構造と色に基づく学習画像コーデック(SLIC)を使用し、輝度成分(YまたはL)と色成分(UVまたはAB)の2つの分岐からなる。しかし、RGBの変種の場合、RGBで動作するほとんどの学習済み画像コーデックと同様に、1つのブランチで3つのチャンネル全てを入力します。モデルは、各色空間における複数のビットレート構成のために訓練される。実験の結果を様々なデータセットで評価し,その結果を最先端の画像コーデックと比較した。 YUVモデルは、ベースラインとしてVTMイントラコーディングモードを使用して、Bj{\o}ntegaard delta bitrate (BD-BR)ゲインが7.5\%のMS-SSIMのLABモデルよりも優れた性能を発揮する。 LABの派生型は、CIEDE2000におけるYUVモデルよりも性能が良く、BD-BRのゲインは8\%である。 SLICのRGB版は、MS-SSIMでBD-BRが13.14\%、CIEDE2000で17.96\%、より高いモデル複雑さで最高のパフォーマンスを達成している。

関連論文リスト

Log NeRF: Comparing Spaces for Learning Radiance Fields [0.6542188603141654]
ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成において顕著な成果を上げている。 BiIlluminant Dichromatic Reflection (BIDR)モデルにインスパイアされた我々は、対数RGB空間によりNeRFはよりコンパクトで効果的なシーン外観表現を学習できるという仮説を立てた。我々は様々な色空間解釈の下でNeRFモデルを訓練し、各ネットワーク出力をレンダリングとロス計算の前に共通色空間に変換し、異なる色空間での表現学習を強制した。
論文参考訳（メタデータ） (2025-12-10T07:12:33Z)
End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model [39.52468600966148]
モダリティの数が増えると、必要なデータストレージと送信コストも2倍になる。本研究は,RGB-IR画像ペアのための共同圧縮フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-27T02:04:21Z)
HDBFormer: Efficient RGB-D Semantic Segmentation with A Heterogeneous Dual-Branch Framework [0.0]
屋内シーンのRGB-Dセマンティックセグメンテーションにおいて、RGB画像からのリッチな色情報と奥行き画像からの空間的距離情報とを効果的に統合することが重要な課題である。本稿では,HDBFormerと呼ばれる新しい異種二分岐フレームワークを提案する。リッチディテールを含むRGB画像に対しては,局所的特徴とグローバルな特徴を抽出するために,基本および詳細エンコーダを併用する。より単純な深度画像に対して,より少ないパラメータで効率的に深度特徴を抽出する軽量階層エンコーダLDFormerを提案する。
論文参考訳（メタデータ） (2025-04-18T09:29:46Z)
HVI: A New Color Space for Low-light Image Enhancement [58.8280819306909]
水平/垂直インテンシティ(HVI)に基づく低照度画像強調(LLIE)のための新しい色空間を提案する。 HVIは分極されたHSマップと学習可能な強度で定義され、一方後者は黒のアーティファクトを除去するために低照度領域を圧縮する。色と強度の情報をフル活用するために、新しい色と強度のデカップリングネットワーク(CIDNet)を導入する。
論文参考訳（メタデータ） (2025-02-27T16:59:51Z)
Linear Attention Modeling for Learned Image Compression [20.691429578976763]
実験により,VTM-9.1を15.26%,-15.41%,-17.63%,Kodak,CLIC,TecnickのBDレートで上回り,競合RD性能を実現した。
論文参考訳（メタデータ） (2025-02-09T01:57:17Z)
Multispectral Texture Synthesis using RGB Convolutional Neural Networks [2.3213238782019316]
最先端のRGBテクスチャ合成アルゴリズムは、深い特徴の統計によって計算されるスタイル距離に依存している。本稿では,これらの手法をマルチスペクトルイメージングに拡張する2つの方法を提案する。
論文参考訳（メタデータ） (2024-10-21T13:49:54Z)
Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文参考訳（メタデータ） (2024-09-23T15:23:01Z)
ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文参考訳（メタデータ） (2024-06-18T12:09:43Z)
You Only Need One Color Space: An Efficient Network for Low-light Image Enhancement [50.37253008333166]
低照度画像強調(LLIE)タスクは、劣化した低照度画像から詳細と視覚情報を復元する傾向がある。水平/垂直インテンシティ(HVI)と呼ばれる新しいトレーニング可能なカラー空間を提案する。輝度と色をRGBチャネルから切り離して、拡張中の不安定性を緩和するだけでなく、トレーニング可能なパラメータによって異なる照明範囲の低照度画像にも適応する。
論文参考訳（メタデータ） (2024-02-08T16:47:43Z)
SLIC: A Learned Image Codec Using Structure and Color [0.41232474244672235]
圧縮処理を輝度と彩度に分割した構造と色に基づくエンコーダ(SLIC)を提案する。ディープラーニングモデルは、YチャネルとUVチャネルのための新しいマルチスケールアーキテクチャで構築されている。提案モデルの性能を研究・解析するために, 種々の実験を行った。
論文参考訳（メタデータ） (2024-01-30T18:39:54Z)
Color Learning for Image Compression [1.2330326247154968]
本稿では,画像圧縮のタスクを2つのサブタスクに分割した新しいディープラーニングモデルアーキテクチャを提案する。モデルは2つの別々の分岐を持ち、輝度と彩色成分を処理する。このアプローチのメリットを実証し、パフォーマンスを他のコーデックと比較します。
論文参考訳（メタデータ） (2023-06-30T08:16:48Z)
Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。ストレージの要求が大きいため、一般ユーザからは広く採用されていない。本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-21T06:59:07Z)
Learning Weighting Map for Bit-Depth Expansion within a Rational Range [64.15915577164894]
ビット深化(BDE)は、低ビット深化(LBD)ソースから高ビット深化(HBD)画像を表示する新興技術の1つである。既存のBDEメソッドは、様々なBDE状況に対して統一的なソリューションを持っていない。我々は,各画素の重みを求めるためにビット復元ネットワーク(BRNet)を設計し,補充値の比率を合理的範囲内で示す。
論文参考訳（メタデータ） (2022-04-26T02:27:39Z)
RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-15T12:31:27Z)
A Combined Deep Learning based End-to-End Video Coding Architecture for YUV Color Space [14.685161934404123]
既存のディープラーニングベースのエンドツーエンドビデオコーディング(DLEC)アーキテクチャのほとんどは、RGBカラーフォーマット用に特別に設計されています。本稿では、YUV 4:2:0を効果的にサポートするビデオコーディング用の新しいDLECアーキテクチャを導入し、そのパフォーマンスをHEVC標準と比較する。
論文参考訳（メタデータ） (2021-04-01T23:41:06Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。