論文の概要: Towards Point Cloud Compression for Machine Perception: A Simple and Strong Baseline by Learning the Octree Depth Level Predictor
- arxiv url: http://arxiv.org/abs/2406.00791v1
- Date: Sun, 2 Jun 2024 16:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:26:39.113100
- Title: Towards Point Cloud Compression for Machine Perception: A Simple and Strong Baseline by Learning the Octree Depth Level Predictor
- Title(参考訳): マシン知覚のためのポイントクラウド圧縮に向けて:Octree Depth Level Predictorを学習したシンプルで強力なベースライン
- Authors: Lei Liu, Zhihao Hu, Zhenghao Chen,
- Abstract要約: 本稿では,人間と機械の両方の視覚タスクを同時に処理するポイントクラウド圧縮フレームワークを提案する。
我々のフレームワークは、異なるマシンビジョンタスクのサブセットのみを使用して、スケーラブルなビットストリームを学習し、ビットレートを節約します。
新しいオクツリー深さレベルの予測器は、点雲から構築された各オクツリーの最適深さレベルを適応的に決定する。
- 参考スコア(独自算出の注目度): 12.510990055381452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point cloud compression has garnered significant interest in computer vision. However, existing algorithms primarily cater to human vision, while most point cloud data is utilized for machine vision tasks. To address this, we propose a point cloud compression framework that simultaneously handles both human and machine vision tasks. Our framework learns a scalable bit-stream, using only subsets for different machine vision tasks to save bit-rate, while employing the entire bit-stream for human vision tasks. Building on mainstream octree-based frameworks like VoxelContext-Net, OctAttention, and G-PCC, we introduce a new octree depth-level predictor. This predictor adaptively determines the optimal depth level for each octree constructed from a point cloud, controlling the bit-rate for machine vision tasks. For simpler tasks (\textit{e.g.}, classification) or objects/scenarios, we use fewer depth levels with fewer bits, saving bit-rate. Conversely, for more complex tasks (\textit{e.g}., segmentation) or objects/scenarios, we use deeper depth levels with more bits to enhance performance. Experimental results on various datasets (\textit{e.g}., ModelNet10, ModelNet40, ShapeNet, ScanNet, and KITTI) show that our point cloud compression approach improves performance for machine vision tasks without compromising human vision quality.
- Abstract(参考訳): ポイントクラウド圧縮はコンピュータビジョンに対する大きな関心を集めている。
しかし、既存のアルゴリズムは主に人間の視覚に向いており、ほとんどのポイントクラウドデータはマシンビジョンのタスクに利用される。
これを解決するために,人間と機械の両方の視覚タスクを同時に処理するポイントクラウド圧縮フレームワークを提案する。
我々のフレームワークは、異なるマシンビジョンタスクのサブセットのみを使用して、ビットレートを節約し、人間のビジョンタスクに全ビットストリームを使用しながら、スケーラブルなビットストリームを学習する。
VoxelContext-Net, OctAttention, G-PCCといった主流のオクツリーベースのフレームワークをベースとして,新しいオクツリー深さレベルの予測器を導入する。
この予測器は、ポイントクラウドから構築された各オクツリーの最適深さレベルを適応的に決定し、マシンビジョンタスクのビットレートを制御する。
単純なタスク(\textit{e g }, classification)やオブジェクト/scenariosでは、ビット数が少なく、ビットレートを節約します。
逆に、より複雑なタスク (\textit{e.g}) に対して。
セグメンテーション)またはオブジェクト/scenariosでは、パフォーマンスを高めるために、より多くのビットを持つ深度レベルを使用します。
各種データセットの実験結果(\textit{e.g})
ModelNet10、ModelNet40、ShapeNet、ScanNet、KITTIは、私たちのポイントクラウド圧縮アプローチが、人間の視覚品質を損なうことなく、マシンビジョンタスクのパフォーマンスを改善することを示しています。
関連論文リスト
- CLIP-based Point Cloud Classification via Point Cloud to Image Translation [19.836264118079573]
Contrastive Vision-Language Pre-Training(CLIP)ベースのポイントクラウド分類モデル(PointCLIP)は、ポイントクラウド分類研究領域に新たな方向性を追加した。
本稿では,PPCITNet(Pretrained Point Cloud to Image Translation Network)を提案する。
論文 参考訳(メタデータ) (2024-08-07T04:50:05Z) - Point Cloud Compression with Implicit Neural Representations: A Unified Framework [54.119415852585306]
我々は幾何学と属性の両方を扱える先駆的なクラウド圧縮フレームワークを提案する。
本フレームワークでは,2つの座標ベースニューラルネットワークを用いて,voxelized point cloudを暗黙的に表現する。
本手法は,既存の学習手法と比較して,高い普遍性を示す。
論文 参考訳(メタデータ) (2024-05-19T09:19:40Z) - Scalable Human-Machine Point Cloud Compression [29.044369073873465]
本稿では,分類の機械的タスクに特化した,スケーラブルなポイントクラウドデータを提供するとともに,人間の視聴のメカニズムも提供する。
提案した拡張性では、"base"ビットストリームはマシンタスクをサポートし、"enhancement"ビットストリームは、人間の視聴のための入力再構成性能を改善するために使用される。
論文 参考訳(メタデータ) (2024-02-19T20:43:10Z) - ViPFormer: Efficient Vision-and-Pointcloud Transformer for Unsupervised
Pointcloud Understanding [3.7966094046587786]
単一アーキテクチャで画像とポイントクラウド処理を統合する軽量なViPFormer(ViPFormer)を提案する。
ViPFormerは、モーダル内およびクロスモーダルのコントラスト目的を最適化することにより、教師なしの方法で学習する。
異なるデータセットの実験では、ViPFormerは、より精度が高く、モデルの複雑さが低く、実行レイテンシが低い、従来の最先端の教師なしメソッドを上回っている。
論文 参考訳(メタデータ) (2023-03-25T06:47:12Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - A Deeper Look into DeepCap [96.67706102518238]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2021-11-20T11:34:33Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - SE-PSNet: Silhouette-based Enhancement Feature for Panoptic Segmentation
Network [5.353718408751182]
汎視的セグメンテーション課題に取り組むための解決策を提案する。
この構造はボトムアップ法とトップダウン法を組み合わせたものである。
ネットワークは主にマスクの品質に注意を払う。
論文 参考訳(メタデータ) (2021-07-11T17:20:32Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Compositional Prototype Network with Multi-view Comparision for Few-Shot
Point Cloud Semantic Segmentation [47.0611707526858]
完全に教師ありのポイントクラウドセグメンテーションネットワークは、しばしばポイントワイズアノテーションを持つ大量のデータを必要とする。
少数のラベル付きトレーニングデータだけでポイントクラウドのセグメンテーションを行うことができるコンポジションプロトタイプネットワークを紹介します。
画像中の少数の学習文献にインスパイアされたネットワークは、限られたトレーニングデータから予測のためのラベルのないテストデータに直接ラベル情報を転送します。
論文 参考訳(メタデータ) (2020-12-28T15:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。