論文の概要: Viewport-based Neural 360° Image Compression
- arxiv url: http://arxiv.org/abs/2603.22776v1
- Date: Tue, 24 Mar 2026 04:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.294917
- Title: Viewport-based Neural 360° Image Compression
- Title(参考訳): ビューポートを用いたニューラル360°画像圧縮
- Authors: Jingwei Liao, Bo Chen, Klara Nahrstedt, Zhisheng Yan,
- Abstract要約: 従来の360度画像圧縮パイプラインは球面画像を単一の2次元平面に投影し、オーバーサンプリングと歪みの問題を引き起こす。
ビューポートを用いた360度画像のためのニューラル圧縮パイプラインを提案する。
私たちのパイプラインは、品質を損なうことなく、最高の360画像圧縮方法と比較して、平均14.01%のビット消費を節約します。
- 参考スコア(独自算出の注目度): 8.494394272659806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the popularity of 360° images on social media platforms, 360° image compression becomes a critical technology for media storage and transmission. Conventional 360° image compression pipeline projects the spherical image into a single 2D plane, leading to issues of oversampling and distortion. In this paper, we propose a novel viewport-based neural compression pipeline for 360° images. By replacing the image projection in conventional 360° image compression pipelines with viewport extraction and efficiently compressing multiple viewports, the proposed pipeline minimizes the inherent oversampling and distortion issues. However, viewport extraction impedes information sharing between multiple viewports during compression, causing the loss of global information about the spherical image. To tackle this global information loss, we design a neural viewport codec to capture global prior information across multiple viewports and maximally compress the viewport data. The viewport codec is empowered by a transformer-based ViewPort ConText (VPCT) module that can be integrated with canonical learning-based 2D image compression structures. We compare the proposed pipeline with existing 360° image compression models and conventional 360° image compression pipelines building on learning-based 2D image codecs and standard hand-crafted codecs. Results show that our pipeline saves an average of $14.01\%$ bit consumption compared to the best-performing 360° image compression methods without compromising quality. The proposed VPCT-based codec also outperforms existing 2D image codecs in the viewport-based neural compression pipeline. Our code can be found at: https://github.com/Jingwei-Liao/VPCT.
- Abstract(参考訳): ソーシャルメディア上では360度画像が普及しているため、360度画像圧縮はメディアストレージと伝送にとって重要な技術となっている。
従来の360度画像圧縮パイプラインは球面画像を単一の2次元平面に投影し、オーバーサンプリングと歪みの問題を引き起こす。
本稿では,360度画像のためのビューポート型ニューラル圧縮パイプラインを提案する。
従来の360度画像圧縮パイプラインにおける画像投影をビューポート抽出に置き換え、複数のビューポートを効率よく圧縮することにより、提案したパイプラインは、固有のオーバーサンプリングと歪みの問題を最小限に抑える。
しかし、ビューポート抽出は圧縮中に複数のビューポート間での情報共有を妨げるため、球面画像に関するグローバルな情報が失われる。
このグローバルな情報損失に対処するために、複数のビューポートにまたがるグローバルな事前情報を捕捉し、ビューポートデータを最大限に圧縮するニューラルビューポートコーデックを設計する。
ビューポートコーデックは、変換器ベースのViewPort ConText(VPCT)モジュールによって強化され、標準学習ベースの2D画像圧縮構造と統合できる。
提案したパイプラインと既存の360度画像圧縮モデルと,学習ベースの2次元画像コーデックと手作り標準コーデックに基づく従来の360度画像圧縮パイプラインを比較した。
その結果、パイプラインは品質を損なうことなく、最高性能の360度画像圧縮法と比較して、平均14.01\%のビット消費を節約していることがわかった。
提案されたVPCTベースのコーデックは、ビューポートベースのニューラル圧縮パイプラインにおける既存の2Dイメージコーデックよりも優れている。
私たちのコードは、https://github.com/Jingwei-Liao/VPCT.comで見られます。
関連論文リスト
- ExGS: Extreme 3D Gaussian Compression with Diffusion Priors [60.7245825868903]
エクストリーム3DGS圧縮のためのExGSとGaussPainterを紹介する。
GassPainterは、欠落した領域を埋め、可視画素を強化し、劣化したレンダリングを大幅に改善する。
私たちのフレームワークは100X圧縮(典型的な354.77MBモデルから約3.31MBまで)も達成できます。
論文 参考訳(メタデータ) (2025-09-29T13:23:06Z) - Range Image-Based Implicit Neural Compression for LiDAR Point Clouds [10.143205531474907]
我々は,3次元LiDAR観測の軽量なフォーマットとして,2Dレンジ画像(RI)に着目した。
本稿では,浮動小数点値画素を効果的に処理する暗黙的ニューラル表現(INR)に基づくRI圧縮法を提案する。
KITTIデータセットを用いた実験により,提案手法は既存の画像,点雲,RI,INRに基づく圧縮手法を3次元再構成および検出品質で上回ることがわかった。
論文 参考訳(メタデータ) (2025-04-24T03:41:57Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - Sparse Point Clouds Assisted Learned Image Compression [22.991782666573933]
自律運転シナリオにおける学習画像圧縮を支援するために,スパースポイントクラウドを用いた新しいフレームワークを提案する。
提案手法は,様々な主流画像圧縮モデルと互換性があり,既存の画像圧縮手法を用いてそのアプローチを検証する。
論文 参考訳(メタデータ) (2024-12-20T10:14:12Z) - CMC-Bench: Towards a New Paradigm of Visual Signal Compression [85.1839779884282]
本稿では,画像圧縮のための画像間テキスト(I2T)モデルとテキスト間画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。
超低速では、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も先進的な視覚信号プロトコルを超えたことが証明されている。
論文 参考訳(メタデータ) (2024-06-13T17:41:37Z) - Are Visual Recognition Models Robust to Image Compression? [23.280147529096908]
画像圧縮が視覚認知タスクに与える影響を解析する。
我々は、0.1ビットから2ビット/ピクセル(bpp)までの幅広い圧縮レベルについて検討する。
これら3つのタスクすべてにおいて,強い圧縮を使用する場合,認識能力に大きな影響があることが判明した。
論文 参考訳(メタデータ) (2023-04-10T11:30:11Z) - Selective compression learning of latent representations for
variable-rate image compression [38.077284943341105]
本稿では、ディープラーニングに基づく可変レート画像圧縮のための、潜在表現を部分的に完全に一般化した方法で符号化する選択的圧縮法を提案する。
提案手法は、個別に訓練された参照圧縮モデルと同等の圧縮効率を達成でき、選択圧縮による復号時間を削減することができる。
論文 参考訳(メタデータ) (2022-11-08T09:09:59Z) - PILC: Practical Image Lossless Compression with an End-to-end GPU
Oriented Neural Framework [88.18310777246735]
本稿では,1台のNVIDIA Tesla V100 GPUを用いて,圧縮と圧縮の両面で200MB/sを実現するエンドツーエンド画像圧縮フレームワークを提案する。
実験により、我々のフレームワークは、複数のデータセットで30%のマージンで、PNGよりも圧縮が優れていることが示された。
論文 参考訳(メタデータ) (2022-06-10T03:00:10Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。