論文の概要: DepthTCM: High Efficient Depth Compression via Physics-aware Transformer-CNN Mixed Architecture
- arxiv url: http://arxiv.org/abs/2603.21233v1
- Date: Sun, 22 Mar 2026 13:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.304101
- Title: DepthTCM: High Efficient Depth Compression via Physics-aware Transformer-CNN Mixed Architecture
- Title(参考訳): DepthTCM:物理対応トランスフォーマー-CNN混合アーキテクチャによる高効率深度圧縮
- Authors: Young-Seo Chang, Yatong An, Jae-Sang Hyun,
- Abstract要約: 深度マップ圧縮のための物理対応のエンドツーエンドフレームワークであるDepthTCMを提案する。
99.38%の精度を維持しながらDepthTCMが0.307bppに達することを示す。
さらに、ScanNet++ iPhone RGB-Dサブセット上で、平均エンドツーエンドの推論時間41.48ms(エンコーダ)と47.45ms(デコーダ)を報告する。
- 参考スコア(独自算出の注目度): 0.866627581195388
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose DepthTCM, a physics-aware end-to-end framework for depth map compression. In our framework of DepthTCM, the high-bit depth map is first converted to a conventional 3-channel image representation losslessly using a method inspired by a physical sinusoidal fringe pattern based profiliometry system, then the 3-channel color image is encoded and decoded by a recently developed Transformer-CNN mixed neural network architecture. Specifically, DepthTCM maps depth to a smooth 3-channel using multiwavelength depth (MWD) encoding, then globally quantized the MWD encoded representation to 4 bits per channel to reduce entropy, and finally is compressed using a learned codec that combines convolutional and Transformer layers. Experiment results demonstrate the advantage of our proposed method. On Middlebury 2014, DepthTCM reaches 0.307 bpp while preserving 99.38% accuracy, a level of fidelity commensurate with lossless PNG. We additionally demonstrate practical efficiency and scalability, reporting average end-to-end inference times of 41.48 ms (encoder) and 47.45 ms (decoder) on the ScanNet++ iPhone RGB-D subset. Ablations validate our design choices: relative to 8-bit quantization, 4-bit quantization reduces bitrate by 66% while maintaining comparable reconstruction quality, with only a marginal 0.68 dB PSNR change and a 0.04% accuracy difference. In addition, Transformer--CNN blocks further improve PSNR by up to 0.75 dB over CNN-only architectures.
- Abstract(参考訳): 深度マップ圧縮のための物理対応のエンドツーエンドフレームワークであるDepthTCMを提案する。
DepthTCMのフレームワークでは、まず物理正弦波パターンに基づくプロファイロメトリーシステムにインスパイアされた方法で、高ビット深度マップを従来の3チャネル画像表現に無作為に変換し、最近開発されたTransformer-CNN混合ニューラルネットワークアーキテクチャによって3チャネルカラー画像の符号化と復号を行う。
具体的には、DepthTCMは、多波長深度符号化(MWD)を用いて滑らかな3チャネルに深度をマッピングし、次にMWD符号化表現をグローバルに4ビットに量子化し、エントロピーを低減し、最終的に畳み込み層とトランスフォーマー層を組み合わせた学習コーデックを用いて圧縮する。
実験の結果,提案手法の利点が示された。
2014年のミドルベリーでは、DepthTCMが0.307bppに達し、99.38%の精度を維持している。
さらに、ScanNet++ iPhone RGB-Dサブセット上で、平均エンドツーエンドの推論時間41.48ms(エンコーダ)と47.45ms(デコーダ)を報告する。
8ビットの量子化と比較して、4ビットの量子化はビットレートを66%削減し、最小値の0.68dBのPSNR変化と0.04%の精度差しか持たない。
さらに、Transformer--CNNブロックは、CNNのみのアーキテクチャでPSNRをさらに改善している。
関連論文リスト
- Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Enhancing Perception Quality in Remote Sensing Image Compression via Invertible Neural Network [10.427300958330816]
リモートセンシング画像をデコードして、特に低解像度で高い知覚品質を実現することは、依然として大きな課題である。
Invertible Neural Network-based Remote Sensor Image compression (INN-RSIC)法を提案する。
我々の INN-RSIC は、認識品質の観点から、既存の最先端のディープラーニングベースの画像圧縮手法よりも優れています。
論文 参考訳(メタデータ) (2024-05-17T03:52:37Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Video Coding for Machines with Feature-Based Rate-Distortion
Optimization [7.804710977378487]
ニューラルネットワークの安定した改善により、ますます多くのマルチメディアデータが人間によって観測されなくなる。
本稿では,コーディング性能の向上を目的とした標準準拠機能ベースのRDO(FRDO)を提案する。
提案したFRDOとHFRDOのハイブリッドバージョンを比較し,特徴空間の歪みを従来のRDOと比較した。
論文 参考訳(メタデータ) (2022-03-11T12:49:50Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z) - Improved Image Coding Autoencoder With Deep Learning [8.92071749364712]
自動エンコーダベースのパイプラインを構築し,Ball'eのアプローチに基づく極端エンドツーエンドの画像圧縮を実現する。
ピクセル当たりのビット数は4.0%減少し(bpp)、マルチスケール構造類似度(MS-SSIM)は0.03%増加し、ピーク信号-ノイズ比(PSNR)は0.47%低下した。
論文 参考訳(メタデータ) (2020-02-28T03:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。