論文の概要: PointVDP: Learning View-Dependent Projection by Fireworks Rays for 3D Point Cloud Segmentation
- arxiv url: http://arxiv.org/abs/2507.06618v1
- Date: Wed, 09 Jul 2025 07:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.507369
- Title: PointVDP: Learning View-Dependent Projection by Fireworks Rays for 3D Point Cloud Segmentation
- Title(参考訳): PointVDP: 3Dポイントクラウドセグメンテーションのための花火線によるビュー依存投影学習
- Authors: Yang Chen, Yueqi Duan, Haowen Sun, Ziwei Wang, Jiwen Lu, Yap-Peng Tan,
- Abstract要約: 本稿では,ポイントクラウドのセグメンテーションを容易にするために,ビュー依存プロジェクション(VDP)を提案する。
VDPは3Dポイント分布からデータ駆動プロジェクションを生成する。
フレームワークを最適化するために色規則化を構築します。
- 参考スコア(独自算出の注目度): 66.00721801098574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose view-dependent projection (VDP) to facilitate point cloud segmentation, designing efficient 3D-to-2D mapping that dynamically adapts to the spatial geometry from view variations. Existing projection-based methods leverage view-independent projection in complex scenes, relying on straight lines to generate direct rays or upward curves to reduce occlusions. However, their view independence provides projection rays that are limited to pre-defined parameters by human settings, restricting point awareness and failing to capture sufficient projection diversity across different view planes. Although multiple projections per view plane are commonly used to enhance spatial variety, the projected redundancy leads to excessive computational overhead and inefficiency in image processing. To address these limitations, we design a framework of VDP to generate data-driven projections from 3D point distributions, producing highly informative single-image inputs by predicting rays inspired by the adaptive behavior of fireworks. In addition, we construct color regularization to optimize the framework, which emphasizes essential features within semantic pixels and suppresses the non-semantic features within black pixels, thereby maximizing 2D space utilization in a projected image. As a result, our approach, PointVDP, develops lightweight projections in marginal computation costs. Experiments on S3DIS and ScanNet benchmarks show that our approach achieves competitive results, offering a resource-efficient solution for semantic understanding.
- Abstract(参考訳): 本稿では,視線変化から空間幾何学に動的に適応する効率的な3D-to-2Dマッピングを設計し,点雲分割を容易にするビュー依存投影(VDP)を提案する。
既存のプロジェクションベースの手法では、複雑なシーンにおけるビュー非依存のプロジェクションを活用し、直線に依存して直接光線や上向きの曲線を生成し、閉塞を減らす。
しかし、それらのビュー独立性は、人間の設定によって予め定義されたパラメータに制限されるプロジェクション線を提供し、点認識を制限し、異なるビュープレーンで十分なプロジェクションの多様性を捉えることができない。
ビュープレーンあたりの複数の投影は、空間的多様性を高めるために一般的に使用されるが、投影された冗長性は、過剰な計算オーバーヘッドと画像処理の非効率をもたらす。
これらの制約に対処するため、3次元点分布からデータ駆動プロジェクションを生成するためのVDPの枠組みを設計し、花火の適応挙動にインスパイアされた光線を予測して高情報な単一画像入力を生成する。
さらに,黒色画素内の重要な特徴を強調し,黒色画素内の非意味的特徴を抑え,投影された画像における2次元空間利用を最大化するフレームワークを最適化するために色規則化を構築した。
その結果,提案手法であるPointVDPでは,限界計算コストの軽量なプロジェクションが開発されている。
S3DIS と ScanNet のベンチマーク実験により,本手法が競合する結果となり,セマンティック理解のための資源効率の高いソリューションが得られた。
関連論文リスト
- Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Relightable 3D Gaussians: Realistic Point Cloud Relighting with BRDF Decomposition and Ray Tracing [21.498078188364566]
フォトリアリスティックなリライトを実現するために,新しい微分可能な点ベースレンダリングフレームワークを提案する。
提案したフレームワークは、メッシュベースのグラフィクスパイプラインを、編集、トレース、リライトを可能にするポイントベースのパイプラインで革新する可能性を示している。
論文 参考訳(メタデータ) (2023-11-27T18:07:58Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering [84.37776381343662]
Mip-NeRFは、スケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。
我々は,リアルタイムなアンチエイリアスレンダリングのためのマルチスケールな明示的表現であるmip voxel grids (Mip-VoG)を提案する。
私たちのアプローチは、マルチスケールのトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。
論文 参考訳(メタデータ) (2023-04-20T04:05:22Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。