論文の概要: Sonata: Self-Supervised Learning of Reliable Point Representations
- arxiv url: http://arxiv.org/abs/2503.16429v1
- Date: Thu, 20 Mar 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:37.759735
- Title: Sonata: Self-Supervised Learning of Reliable Point Representations
- Title(参考訳): Sonata: 信頼性のあるポイント表現の自己指導型学習
- Authors: Xiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub,
- Abstract要約: 既存の3次元自己教師型学習手法は,線形探索による表現品質評価では不十分であることがわかった。
この課題は3D特有のものであり、ポイントクラウドデータのスパースな性質から生じます。
空間情報の隠蔽と,入力機能への依存度の向上という,2つの重要な戦略を通じて対処する。
- 参考スコア(独自算出の注目度): 29.931666371580178
- License:
- Abstract: In this paper, we question whether we have a reliable self-supervised point cloud model that can be used for diverse 3D tasks via simple linear probing, even with limited data and minimal computation. We find that existing 3D self-supervised learning approaches fall short when evaluated on representation quality through linear probing. We hypothesize that this is due to what we term the "geometric shortcut", which causes representations to collapse to low-level spatial features. This challenge is unique to 3D and arises from the sparse nature of point cloud data. We address it through two key strategies: obscuring spatial information and enhancing the reliance on input features, ultimately composing a Sonata of 140k point clouds through self-distillation. Sonata is simple and intuitive, yet its learned representations are strong and reliable: zero-shot visualizations demonstrate semantic grouping, alongside strong spatial reasoning through nearest-neighbor relationships. Sonata demonstrates exceptional parameter and data efficiency, tripling linear probing accuracy (from 21.8% to 72.5%) on ScanNet and nearly doubling performance with only 1% of the data compared to previous approaches. Full fine-tuning further advances SOTA across both 3D indoor and outdoor perception tasks.
- Abstract(参考訳): 本稿では,限られたデータと最小限の計算量であっても,単純な線形探索による多種多様な3次元タスクに使用できる,信頼性の高いセルフ教師付きポイントクラウドモデルが存在するかどうかを問う。
既存の3次元自己教師型学習手法は,線形探索による表現品質評価では不十分であることがわかった。
これは「幾何学的ショートカット(geometric shortcut)」と呼ばれ、低レベルの空間的特徴に表現が崩壊する原因である、という仮説を立てる。
この課題は3D特有のものであり、ポイントクラウドデータのスパースな性質から生じます。
空間情報を隠蔽し、入力特徴への依存を高め、最終的に140kの点雲からなるソナタを自己蒸留によって構成する。
ソナタは単純で直感的であるが、その学習された表現は強力で信頼性が高い。
ソナタは例外的なパラメータとデータ効率を示し、ScanNet上での線形探索精度(21.8%から72.5%)を3倍にし、従来のアプローチと比べてデータの1%しかデータを倍にしない。
完全な微調整により、3次元屋内および屋外の両方の知覚タスクにおいてSOTAはさらに進歩する。
関連論文リスト
- Clustering based Point Cloud Representation Learning for 3D Analysis [80.88995099442374]
本稿では,ポイントクラウド分析のためのクラスタリングに基づく教師付き学習手法を提案する。
現在のデファクトでシーンワイドなトレーニングパラダイムとは異なり、我々のアルゴリズムは点埋め込み空間上でクラス内のクラスタリングを行う。
我々のアルゴリズムは、有名なポイントクラウドセグメンテーションデータセットの顕著な改善を示している。
論文 参考訳(メタデータ) (2023-07-27T03:42:12Z) - Learning Signed Distance Functions from Noisy 3D Point Clouds via Noise
to Noise Mapping [52.25114448281418]
3Dポイントクラウドから署名付き距離関数(SDF)を学習することは、3Dコンピュータビジョンにおいて重要な課題である。
クリーンポイントクラウドや地上の真実管理を必要とせず,ノイズからノイズへのマッピングを通じてSDFを学習することを提案する。
我々の新しい特徴はノイズ・ト・ノイズマッピングにあり、1つの物体やシーンの高度に正確なSDFを、その多重または単一ノイズの点雲観測から推測することができる。
論文 参考訳(メタデータ) (2023-06-02T09:52:04Z) - Unsupervised Inference of Signed Distance Functions from Single Sparse
Point Clouds without Learning Priors [54.966603013209685]
3次元点雲から符号付き距離関数(SDF)を推測することは不可欠である。
単一スパース点雲から直接SDFを推定するニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T15:56:50Z) - Efficient Implicit Neural Reconstruction Using LiDAR [6.516471975863534]
本稿では, 微小なLiDAR点雲と粗度オドメトリーを用いて, 微小な暗黙的占有場を数分以内に効率的に再構築する手法を提案する。
我々の知る限り、この手法はLiDARのみの入力から暗黙のシーン表現を再構築する最初の方法である。
論文 参考訳(メタデータ) (2023-02-28T07:31:48Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Efficient Urban-scale Point Clouds Segmentation with BEV Projection [0.0]
ほとんどのディープポイントクラウドモデルは、直接3Dポイントクラウド上で学習を行います。
本稿では,高密度の鳥眼視射影に3次元点雲を移すことを提案する。
論文 参考訳(メタデータ) (2021-09-19T06:49:59Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z) - 3D Point Cloud Feature Explanations Using Gradient-Based Methods [11.355723874379317]
我々は、3Dデータを扱うために画像データに作用することが示されているサリエンシ手法を拡張した。
3Dデータは本質的に疎いという洞察に基づいて、ボクセルベースの分類ネットワークによって学習された特徴を可視化する。
以上の結果から,Voxception-ResNetモデルではパラメータの5%まで精度を損なうことが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-06-09T23:17:24Z) - A Nearest Neighbor Network to Extract Digital Terrain Models from 3D
Point Clouds [1.6249267147413524]
本稿では,3Dポイントのクラウド上で動作し,エンド・ツー・エンドのアプローチを用いてシーンの基盤となるDTMを推定するアルゴリズムを提案する。
我々のモデルは近隣情報を学習し、これをポイントワイドでブロックワイドなグローバルな特徴とシームレスに統合する。
論文 参考訳(メタデータ) (2020-05-21T15:54:55Z) - Label-Efficient Learning on Point Clouds using Approximate Convex
Decompositions [43.1279121348315]
本稿では,ACD(Adroximate Convex Decompositions)を用いて,点雲表現のラベル効率の学習を行う。
我々は,ACDを用いて3次元点雲表現の学習に優れた自己スーパービジョンを提供することを示す。
論文 参考訳(メタデータ) (2020-03-30T21:44:43Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。