論文の概要: FLaTEC: Frequency-Disentangled Latent Triplanes for Efficient Compression of LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2511.20065v1
- Date: Tue, 25 Nov 2025 08:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.360002
- Title: FLaTEC: Frequency-Disentangled Latent Triplanes for Efficient Compression of LiDAR Point Clouds
- Title(参考訳): FLaTEC:LiDAR点雲の効率的な圧縮のための周波数不整形潜時三葉機
- Authors: Xiaoge Zhang, Zijie Wu, Mingtao Feng, Zichen Geng, Mehwish Nasim, Saeed Anwar, Ajmal Mian,
- Abstract要約: FLaTECは、圧縮率の高いフルスキャンの圧縮を可能にする周波数対応圧縮モデルである。
ボキセル化埋め込みを三面体表現に変換することで、空間性、計算コスト、ストレージ要件を低減する。
提案手法は,最先端の速度歪み性能を実現し,標準コーデックのBDレートを78%,94%向上させる。
- 参考スコア(独自算出の注目度): 52.997038111673966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point cloud compression methods jointly optimize bitrates and reconstruction distortion. However, balancing compression ratio and reconstruction quality is difficult because low-frequency and high-frequency components contribute differently at the same resolution. To address this, we propose FLaTEC, a frequency-aware compression model that enables the compression of a full scan with high compression ratios. Our approach introduces a frequency-aware mechanism that decouples low-frequency structures and high-frequency textures, while hybridizing latent triplanes as a compact proxy for point cloud. Specifically, we convert voxelized embeddings into triplane representations to reduce sparsity, computational cost, and storage requirements. We then devise a frequency-disentangling technique that extracts compact low-frequency content while collecting high-frequency details across scales. The decoupled low-frequency and high-frequency components are stored in binary format. During decoding, full-spectrum signals are progressively recovered via a modulation block. Additionally, to compensate for the loss of 3D correlation, we introduce an efficient frequency-based attention mechanism that fosters local connectivity and outputs arbitrary resolution points. Our method achieves state-of-the-art rate-distortion performance and outperforms the standard codecs by 78\% and 94\% in BD-rate on both SemanticKITTI and Ford datasets.
- Abstract(参考訳): 点雲圧縮法はビットレートと再構成歪みを協調的に最適化する。
しかし、低周波成分と高周波成分が同じ解像度で異なるため、圧縮比と復元品質のバランスが難しい。
そこで本研究では,周波数対応圧縮モデルであるFLaTECを提案する。
提案手法では,低周波構造と高周波テクスチャを分離する周波数認識機構を導入し,低周波3葉機を点雲のコンパクトプロキシとしてハイブリダイズする。
具体的には,Voxelized Embeddings を三面体表現に変換することで,空間性,計算コスト,ストレージ要件の低減を図る。
次に、小型の低周波コンテンツを抽出し、スケールにわたって高周波の詳細を収集する周波数ディペンタング手法を考案する。
分離された低周波成分と高周波成分はバイナリ形式に格納される。
復号化中、全スペクトル信号は変調ブロックを介して徐々に復元される。
さらに,3次元相関の損失を補うために,局所接続の促進と任意の分解点の出力を行う効率的な周波数ベースアテンション機構を導入する。
本手法は,SemanticKITTIとFordの両データセットのBDレートにおいて,最先端の速度歪み性能を実現し,標準コーデックを78 %,94 %向上させる。
関連論文リスト
- KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - Single-step Diffusion for Image Compression at Ultra-Low Bitrates [19.76457078979179]
超低速度で高い知覚品質と高速デコードを実現する画像圧縮のための単一ステップ拡散モデルを提案する。
このアプローチには2つの重要なイノベーションが含まれている。 (i) ベクトル量子残留(VQ-Residual)トレーニング。
圧縮性能は最先端の手法に匹敵し,デコード速度を約50倍向上させる。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - High-Frequency Enhanced Hybrid Neural Representation for Video Compression [32.38933743785333]
本稿では,高周波拡張型ハイブリッドニューラル表現ネットワークを提案する。
本手法は,ネットワークによる細部合成を改善するために,高周波情報を活用することに焦点を当てている。
BunnyおよびUVGデータセットの実験は、我々の手法が他の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-11T03:04:46Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - LC-FDNet: Learned Lossless Image Compression with Frequency
Decomposition Network [14.848279912686948]
近年の学習に基づく画像圧縮法では,高周波領域の性能低下は考慮されていない。
本稿では,低周波領域と高周波領域を分離処理するために,粗大な方法で符号化を進める新しい手法を提案する。
実験により,提案手法はベンチマーク高解像度データセットの最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-12-13T04:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。