論文の概要: Neural Stereo Video Compression with Hybrid Disparity Compensation
- arxiv url: http://arxiv.org/abs/2504.20383v1
- Date: Tue, 29 Apr 2025 03:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.73035
- Title: Neural Stereo Video Compression with Hybrid Disparity Compensation
- Title(参考訳): ハイブリッド差分補償によるニューラルステレオビデオ圧縮
- Authors: Shiyin Jiang, Zhenghao Chen, Minghao Han, Xingyu Zhou, Leheng Zhang, Shuhang Gu,
- Abstract要約: 最適化を簡略化するために,画素変位を頑健な先行特徴として活用するハイブリッド分散補償(HDC)戦略を提案する。
本稿では,HDCベースのモジュールを鍵符号化操作に統合した,エンドツーエンド最適化型ニューラルステレオビデオ圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.811261355652356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disparity compensation represents the primary strategy in stereo video compression (SVC) for exploiting cross-view redundancy. These mechanisms can be broadly categorized into two types: one that employs explicit horizontal shifting, and another that utilizes an implicit cross-attention mechanism to reduce cross-view disparity redundancy. In this work, we propose a hybrid disparity compensation (HDC) strategy that leverages explicit pixel displacement as a robust prior feature to simplify optimization and perform implicit cross-attention mechanisms for subsequent warping operations, thereby capturing a broader range of disparity information. Specifically, HDC first computes a similarity map by fusing the horizontally shifted cross-view features to capture pixel displacement information. This similarity map is then normalized into an "explicit pixel-wise attention score" to perform the cross-attention mechanism, implicitly aligning features from one view to another. Building upon HDC, we introduce a novel end-to-end optimized neural stereo video compression framework, which integrates HDC-based modules into key coding operations, including cross-view feature extraction and reconstruction (HDC-FER) and cross-view entropy modeling (HDC-EM). Extensive experiments on SVC benchmarks, including KITTI 2012, KITTI 2015, and Nagoya, which cover both autonomous driving and general scenes, demonstrate that our framework outperforms both neural and traditional SVC methodologies.
- Abstract(参考訳): 相違補償は、立体ビデオ圧縮(SVC)において、ビューの冗長性を活用するための主要な戦略である。
これらのメカニズムは2つのタイプに大別できる: 明示的な水平シフトを利用するものと、暗黙的な横断的なメカニズムを使って、視差の冗長性を減少させるものである。
本研究は,高次演算処理の最適化と暗黙的相互アテンション機構を実現するために,露骨な画素変位を利用したハイブリット・ディパリティ補償(HDC)戦略を提案する。
特にHDCは、水平にシフトしたクロスビュー特徴を融合させて画素変位情報をキャプチャすることで、まず類似度マップを計算する。
この類似性マップは、あるビューから別のビューへ暗黙的に特徴をアライメントするクロスアテンション機構を実行するために、"明示的ピクセルワイドアテンションスコア"に正規化される。
このフレームワークは,HDCをベースとしたモジュールを,クロスビュー特徴抽出と再構成 (HDC-FER) とクロスビューエントロピーモデリング (HDC-EM) を含むキーコーディング操作に統合する。
KITTI 2012、KITTI 2015、名古屋など、SVCベンチマークの大規模な実験は、私たちのフレームワークがニューラルおよび従来のSVC手法より優れていることを実証している。
関連論文リスト
- Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model [11.959608742884408]
BiSICは対称ステレオ画像圧縮アーキテクチャである。
本研究では,局所的な特徴を捉え,グローバルな特徴を活用するために双方向の注意ブロックを組み込む3次元畳み込みに基づくバックボーンを提案する。
提案するBiSICは,従来の画像/ビデオ圧縮規格より優れている。
論文 参考訳(メタデータ) (2024-07-15T11:36:22Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Cross-View Hierarchy Network for Stereo Image Super-Resolution [14.574538513341277]
ステレオ画像スーパーレゾリューションは、ビュー間の相補的な情報を活用することにより、高解像度ステレオ画像ペアの品質を向上させることを目的としている。
ステレオ画像超解法(CVHSSR)のためのクロスビュー階層ネットワーク(Cross-View-Hierarchy Network)という新しい手法を提案する。
CVHSSRは、パラメータを減らしながら、他の最先端手法よりも最高のステレオ画像超解像性能を達成する。
論文 参考訳(メタデータ) (2023-04-13T03:11:30Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。