論文の概要: Representation Learning for Point Cloud Understanding
- arxiv url: http://arxiv.org/abs/2512.06058v1
- Date: Fri, 05 Dec 2025 17:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.173871
- Title: Representation Learning for Point Cloud Understanding
- Title(参考訳): ポイントクラウド理解のための表現学習
- Authors: Siming Yan,
- Abstract要約: 論文は、ポイントクラウドプリミティブセグメンテーションのための教師付き表現学習、自己教師付き学習方法、そして2Dから3Dへの伝達学習の3つの主要な領域に焦点を当てている。
提案手法は,3次元ネットワーク学習を支援するために事前学習された2次元モデルを統合し,単に2次元データを変換することなく3次元理解を大幅に改善する。
- 参考スコア(独自算出の注目度): 4.304883944435261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of technology, 3D data acquisition and utilization have become increasingly prevalent across various fields, including computer vision, robotics, and geospatial analysis. 3D data, captured through methods such as 3D scanners, LiDARs, and RGB-D cameras, provides rich geometric, shape, and scale information. When combined with 2D images, 3D data offers machines a comprehensive understanding of their environment, benefiting applications like autonomous driving, robotics, remote sensing, and medical treatment. This dissertation focuses on three main areas: supervised representation learning for point cloud primitive segmentation, self-supervised learning methods, and transfer learning from 2D to 3D. Our approach, which integrates pre-trained 2D models to support 3D network training, significantly improves 3D understanding without merely transforming 2D data. Extensive experiments validate the effectiveness of our methods, showcasing their potential to advance point cloud representation learning by effectively integrating 2D knowledge.
- Abstract(参考訳): 技術の急速な進歩に伴い、3Dデータ取得と利用はコンピュータビジョン、ロボット工学、地理空間解析など様々な分野に広まりつつある。
3Dデータ(3Dスキャナー、LiDAR、RGB-Dカメラなど)は、リッチな幾何学的、形状、スケール情報を提供する。
3Dデータと2D画像を組み合わせることで、機械は環境を総合的に理解し、自律運転、ロボット工学、リモートセンシング、医療治療などの応用に役立てることができる。
この論文は、ポイントクラウドプリミティブセグメンテーションのための教師付き表現学習、自己教師付き学習方法、2Dから3Dへの伝達学習の3つの分野に焦点を当てている。
提案手法は,3次元ネットワーク学習を支援するために事前学習された2次元モデルを統合し,単に2次元データを変換することなく3次元理解を大幅に改善する。
本手法の有効性を検証し,2次元知識を効果的に統合し,先進点雲表現学習の可能性を示す。
関連論文リスト
- Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked Learner [19.908670991088556]
本稿では,3次元と投影された2次元特徴から点雲と多視点画像を再構成する3次元から多視点自動エンコーダを提案する。
2次元と3次元の表現を整合させる新しい2段階の自己学習戦略が提案されている。
提案手法は,3次元分類,部分分割,オブジェクト検出など,さまざまな下流タスクにおいて,最先端のタスクよりも優れる。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。