論文の概要: Pseudocylindrical Convolutions for Learned Omnidirectional Image
Compression
- arxiv url: http://arxiv.org/abs/2112.13227v1
- Date: Sat, 25 Dec 2021 12:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 17:42:00.844230
- Title: Pseudocylindrical Convolutions for Learned Omnidirectional Image
Compression
- Title(参考訳): 学習した全方位画像圧縮のための擬似円錐形コンボリューション
- Authors: Mu Li, Kede Ma, Jinxing Li, and David Zhang
- Abstract要約: 我々は、全方位画像圧縮のためのディープニューラルネットワークを初めて学習する試みの1つである。
パラメトリック表現に関する合理的な制約の下では、擬円筒的畳み込みは標準畳み込みによって効率的に実装できる。
実験結果から,提案手法は競合手法よりも高い速度歪み性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 42.15877732557837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although equirectangular projection (ERP) is a convenient form to store
omnidirectional images (also known as 360-degree images), it is neither
equal-area nor conformal, thus not friendly to subsequent visual communication.
In the context of image compression, ERP will over-sample and deform things and
stuff near the poles, making it difficult for perceptually optimal bit
allocation. In conventional 360-degree image compression, techniques such as
region-wise packing and tiled representation are introduced to alleviate the
over-sampling problem, achieving limited success. In this paper, we make one of
the first attempts to learn deep neural networks for omnidirectional image
compression. We first describe parametric pseudocylindrical representation as a
generalization of common pseudocylindrical map projections. A computationally
tractable greedy method is presented to determine the (sub)-optimal
configuration of the pseudocylindrical representation in terms of a novel proxy
objective for rate-distortion performance. We then propose pseudocylindrical
convolutions for 360-degree image compression. Under reasonable constraints on
the parametric representation, the pseudocylindrical convolution can be
efficiently implemented by standard convolution with the so-called
pseudocylindrical padding. To demonstrate the feasibility of our idea, we
implement an end-to-end 360-degree image compression system, consisting of the
learned pseudocylindrical representation, an analysis transform, a non-uniform
quantizer, a synthesis transform, and an entropy model. Experimental results on
$19,790$ omnidirectional images show that our method achieves consistently
better rate-distortion performance than the competing methods. Moreover, the
visual quality by our method is significantly improved for all images at all
bitrates.
- Abstract(参考訳): 等角射影(ERP)は全方位画像(360度画像とも呼ばれる)を保存するのに便利な形式であるが、等距離でも等角でもないため、その後の視覚通信には適さない。
画像圧縮の文脈では、ERPは極付近のものをオーバーサンプリングし変形させ、知覚的に最適なビット割り当てを困難にする。
従来の360度画像圧縮では,領域パッキングやタイル表現などの技術を導入して過剰サンプリング問題を軽減し,限定的な成功を収めている。
本稿では,全方位画像圧縮のための深層ニューラルネットワークを学習する最初の試みの一つである。
まずパラメトリック擬似円筒表現を共通擬似円筒写像投影の一般化として記述する。
計算的に抽出可能なグリード法を提示し、その擬似円筒表現の(サブ)最適構成を、レート歪み性能の新たなプロキシ目的の観点から決定する。
次に,360度画像圧縮のための擬似円筒畳み込みを提案する。
パラメトリック表現の合理的な制約の下では、擬似円筒の畳み込みは、いわゆる擬似円筒パディングとの標準畳み込みによって効率的に実装することができる。
提案手法の実現可能性を示すため,学習した擬似円筒表現,解析変換,非一様量子化器,合成変換,エントロピーモデルからなるエンドツーエンドの360度画像圧縮システムを実装した。
全方位画像19,790ドルの実験結果から,本手法は,本手法よりも高いレートゆがみ性能が得られることがわかった。
さらに,全ビットレートの映像に対して,提案手法による視覚品質が大幅に向上した。
関連論文リスト
- Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model [11.959608742884408]
BiSICは対称ステレオ画像圧縮アーキテクチャである。
本研究では,局所的な特徴を捉え,グローバルな特徴を活用するために双方向の注意ブロックを組み込む3次元畳み込みに基づくバックボーンを提案する。
提案するBiSICは,従来の画像/ビデオ圧縮規格より優れている。
論文 参考訳(メタデータ) (2024-07-15T11:36:22Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - Complementary Bi-directional Feature Compression for Indoor 360{\deg}
Semantic Segmentation with Self-distillation [37.82642960470551]
相補的な観点から,新しい360degセマンティックセマンティックセマンティクスソリューションを提案する。
提案手法は, 定量的評価において, 少なくとも10%改善した最先端のソリューションよりも優れている。
論文 参考訳(メタデータ) (2022-07-06T05:05:54Z) - Hybrid Model-based / Data-driven Graph Transform for Image Coding [54.31406300524195]
予測内残差ブロックを符号化するハイブリッドモデルベース/データ駆動方式を提案する。
変換行列の最初の$K$固有ベクトルは、安定性のための非対称離散正弦変換(ADST)のような統計モデルから導かれる。
WebPをベースライン画像として使用することにより、我々のハイブリッドグラフ変換は、デフォルトの離散コサイン変換(DCT)よりもエネルギーの圧縮が良く、KLTよりも安定性がよいことを示す。
論文 参考訳(メタデータ) (2022-03-02T15:36:44Z) - Rectifying homographies for stereo vision: analytical solution for
minimal distortion [0.0]
整形化は、その後のステレオ対応問題を単純化するために用いられる。
本研究は、視点歪みを最小化する補正ホモグラフに対する閉形式解を提案する。
論文 参考訳(メタデータ) (2022-02-28T22:35:47Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - Substitutional Neural Image Compression [48.20906717052056]
置換型ニューラルイメージ圧縮(snic)は、あらゆるニューラルイメージ圧縮モデルを強化する一般的なアプローチである。
フレキシブルな歪みメトリックに向けて圧縮性能を高め、単一のモデルインスタンスを使用したビットレート制御を可能にする。
論文 参考訳(メタデータ) (2021-05-16T20:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。