論文の概要: FFCA-Net: Stereo Image Compression via Fast Cascade Alignment of Side
Information
- arxiv url: http://arxiv.org/abs/2312.16963v1
- Date: Thu, 28 Dec 2023 11:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 16:29:27.720736
- Title: FFCA-Net: Stereo Image Compression via Fast Cascade Alignment of Side
Information
- Title(参考訳): FFCA-Net:サイド情報の高速カスケードアライメントによるステレオ画像圧縮
- Authors: Yichong Xia, Yujun Huang, Bin Chen, Haoqian Wang, Yaowei Wang
- Abstract要約: マルチビュー圧縮技術、特にステレオ画像圧縮(SIC)は、車載カメラや3D関連アプリケーションにおいて重要な役割を果たす。
本稿では,デコーダの側情報を完全に活用する機能ベースの高速カスケードアライメントネットワーク(FFCA-Net)を提案する。
提案手法は,他の手法よりも3倍から10倍高速な復号化を実現する。
- 参考スコア(独自算出の注目度): 44.88123177525665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view compression technology, especially Stereo Image Compression (SIC),
plays a crucial role in car-mounted cameras and 3D-related applications.
Interestingly, the Distributed Source Coding (DSC) theory suggests that
efficient data compression of correlated sources can be achieved through
independent encoding and joint decoding. This motivates the rapidly developed
deep-distributed SIC methods in recent years. However, these approaches neglect
the unique characteristics of stereo-imaging tasks and incur high decoding
latency. To address this limitation, we propose a Feature-based Fast Cascade
Alignment network (FFCA-Net) to fully leverage the side information on the
decoder. FFCA adopts a coarse-to-fine cascaded alignment approach. In the
initial stage, FFCA utilizes a feature domain patch-matching module based on
stereo priors. This module reduces redundancy in the search space of trivial
matching methods and further mitigates the introduction of noise. In the
subsequent stage, we utilize an hourglass-based sparse stereo refinement
network to further align inter-image features with a reduced computational
cost. Furthermore, we have devised a lightweight yet high-performance feature
fusion network, called a Fast Feature Fusion network (FFF), to decode the
aligned features. Experimental results on InStereo2K, KITTI, and Cityscapes
datasets demonstrate the significant superiority of our approach over
traditional and learning-based SIC methods. In particular, our approach
achieves significant gains in terms of 3 to 10-fold faster decoding speed than
other methods.
- Abstract(参考訳): マルチビュー圧縮技術、特にステレオ画像圧縮(SIC)は、車載カメラや3D関連アプリケーションにおいて重要な役割を果たす。
興味深いことに、分散ソース符号化(DSC)理論は、独立符号化と共同復号によって相関ソースの効率的なデータ圧縮を実現することができることを示唆している。
これは近年急速に発展してきた分散SIC手法を動機付けている。
しかし、これらのアプローチはステレオ撮影タスクのユニークな特徴を無視し、高い復号遅延を引き起こす。
この制限に対処するために,デコーダの側情報を完全に活用する機能ベースの高速カスケードアライメントネットワーク(FFCA-Net)を提案する。
FFCAは粗大なカスケードアライメントアプローチを採用する。
最初の段階では、FFCAはステレオプリミティブに基づいたフィーチャードメインパッチマッチングモジュールを使用する。
このモジュールは、自明なマッチング手法の探索空間における冗長性を低減し、さらにノイズの導入を緩和する。
その後の段階では、時間ガラスを用いたスパースステレオリファインメントネットワークを用いて、画像間特徴を計算コストの削減とともに調整する。
さらに,FFF(Fast Feature Fusion Network)と呼ばれる軽量かつ高性能な機能融合ネットワークを考案し,その特徴をデコードした。
InStereo2K,KITTI,Cityscapesのデータセットによる実験結果から,従来のSIC手法よりもアプローチが優れていることが示された。
特に,提案手法は,他の手法よりも3倍から10倍高速な復号化を実現する。
関連論文リスト
- Att2CPC: Attention-Guided Lossy Attribute Compression of Point Clouds [18.244200436103156]
本稿では, オートエンコーダアーキテクチャを利用して, ポイントクラウド属性を効率よく圧縮する手法を提案する。
実験の結果,YチャネルのBD-PSNRとYUVチャネルの平均改善率は1.15dBと2.13dBであることがわかった。
論文 参考訳(メタデータ) (2024-10-23T12:32:21Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Efficient Data Compression for 3D Sparse TPC via Bicephalous
Convolutional Autoencoder [8.759778406741276]
この研究は、textitBicephalous Convolutional AutoEncoder (BCAE)と呼ばれる、空間と回帰を同時に解決するデュアルヘッドオートエンコーダを導入している。
これはMGARD、SZ、ZFPといった従来のデータ圧縮手法と比較して圧縮忠実度と比の両方の利点を示している。
論文 参考訳(メタデータ) (2021-11-09T21:26:37Z) - Towards Deep and Efficient: A Deep Siamese Self-Attention Fully
Efficient Convolutional Network for Change Detection in VHR Images [28.36808011351123]
EffCDNetという非常に深く効率的なCDネットワークを提示する。
EffCDNetでは、ディープワイド畳み込みとチャネルシャッフル機構によるグループ畳み込みからなる効率的な畳み込みが導入された。
難易度の高い2つのCDデータセットにおいて、本手法は他のSOTA FCN法よりも優れている。
論文 参考訳(メタデータ) (2021-08-18T14:02:38Z) - Neural Distributed Source Coding [59.630059301226474]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。
提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:50:43Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Sequential vessel segmentation via deep channel attention network [5.941874421818899]
本稿では,新しいエンコーダ・デコーダ・ディープネットワークアーキテクチャを提案する。
これは、現在のフレーム中心のスライディングウィンドウ内の2D+tシーケンシャル画像のコンテキストフレームを利用して、現在のフレームから2D容器マスクを分割する。
このアーキテクチャは、エンコーダ段階での時間空間的特徴抽出、スキップ接続層における特徴融合、デコーダ段階でのチャネルアテンション機構を備える。
論文 参考訳(メタデータ) (2021-02-10T02:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。