論文の概要: Rethinking Point Clouds as Sequences: A Causal Next-Token Predictive Learning Framework
- arxiv url: http://arxiv.org/abs/2605.17566v1
- Date: Sun, 17 May 2026 17:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.206878
- Title: Rethinking Point Clouds as Sequences: A Causal Next-Token Predictive Learning Framework
- Title(参考訳): ポイントクラウドをシーケンスとして再考する - 次世代予測学習フレームワーク
- Authors: Yumeng Yao, Jingzhi Dong, Haowen Gu, Tao Chen, Zonghan Wu, Xiaoshui Huang, Yazhou Yao,
- Abstract要約: 我々は、ポイントクラウド事前学習を、完全に因果的かつデコーダのない潜伏型次世代予測問題として再構成するPointNTPを紹介した。
提案されたPointNTPは、複数のダウンストリームタスクで非常に競争力がある。
- 参考スコア(独自算出の注目度): 31.937606388374885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid progress of multimodal foundation models and predictive pre-training, an important open question is how to equip 3D point clouds with a pre-training paradigm that is better aligned with next-token and next-embedding learning. Existing point-cloud self-supervised methods are largely built on masked reconstruction or explicit geometric generation, and thus remain tied to input recovery rather than predictive dependency modeling. In this paper, we introduce PointNTP, which reformulates point cloud pre-training as a fully causal, decoder-free latent Next-Token Prediction problem. Specifically, each point cloud is first partitioned into local patches and serialized into a structured 3D token sequence according to patch-center geometry. The resulting sequence is then modeled by a causal Transformer under prefix-only conditioning, and trained with a shift-based prediction objective stabilized by stop-gradient targets. This design enables the model to learn structural dependencies directly in latent space, without reconstruction decoders or explicit geometric recovery. Extensive experiments demonstrate that the proposed PointNTP is highly competitive across multiple downstream tasks: it achieves 93.8%(+0.5%), 92.6%(+0.3%), and 89.3%(+1.1%) on OBJ_BG, OBJ_ONLY, and PB_T50_RS of ScanObjectNN, respectively; obtains 85.0%(+0.1%) in Cls.mIoU on ShapeNetPart; and reaches 71.1% mAcc on S3DIS Area 5. Overall, decoder-free causal latent prediction provides a simple, scalable, and potentially modality-agnostic paradigm for point-cloud self-supervised learning, offering a new 3D perspective on foundation-style predictive learning for 3D data.
- Abstract(参考訳): マルチモーダル・ファンデーションモデルと予測事前学習の急速な進歩により、重要なオープンな疑問は、次の学習と次の学習との整合性の良い事前学習パラダイムで3Dポイント・クラウドをどのように装備するかである。
既存の点クラウド自己教師手法は、主にマスク付き再構成や明示的な幾何学的生成に基づいて構築されており、従って予測依存モデリングよりも入力回復に結びついている。
本稿では、ポイント雲事前学習を、完全に因果的かつデコーダのない潜伏型次世代予測問題として再構成するポイントNTPを提案する。
具体的には、各点クラウドをまずローカルパッチに分割し、パッチ中心形状に従って構造化された3Dトークンシーケンスにシリアライズする。
得られたシーケンスはプレフィックスのみの条件下で因果変換器によってモデル化され、停止段階の目標によって安定化されたシフトベースの予測目標で訓練される。
この設計により、モデルは、再構成デコーダや明示的な幾何的回復なしに、遅延空間で構造的依存関係を直接学習することができる。
ScanObjectNNのOBJ_BG、OBJ_ONLY、PB_T50_RSで93.8%(+0.5%)、92.6%(+0.3%)、89.3%(+1.1%)、ShapeNetPartでCls.mIoUで85.0%(+0.1%)、S3DIS Area 5で71.1%mAccに達する。
全体として、デコーダフリー因果潜在予測は、ポイントクラウドによる自己教師付き学習のためのシンプルでスケーラブルで、潜在的にモダリティに依存しないパラダイムを提供し、3Dデータに対する基礎的なスタイルの予測学習に関する新しい3D視点を提供する。
関連論文リスト
- Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文 参考訳(メタデータ) (2025-08-30T06:02:21Z) - Point Cloud Pre-training with Diffusion Models [62.12279263217138]
我々は、ポイントクラウド拡散事前学習(PointDif)と呼ばれる新しい事前学習手法を提案する。
PointDifは、分類、セグメンテーション、検出など、さまざまな下流タスクのために、さまざまな現実世界のデータセット間で大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-25T08:10:05Z) - Clustering based Point Cloud Representation Learning for 3D Analysis [80.88995099442374]
本稿では,ポイントクラウド分析のためのクラスタリングに基づく教師付き学習手法を提案する。
現在のデファクトでシーンワイドなトレーニングパラダイムとは異なり、我々のアルゴリズムは点埋め込み空間上でクラス内のクラスタリングを行う。
我々のアルゴリズムは、有名なポイントクラウドセグメンテーションデータセットの顕著な改善を示している。
論文 参考訳(メタデータ) (2023-07-27T03:42:12Z) - GeoMAE: Masked Geometric Target Prediction for Self-supervised Point
Cloud Pre-Training [16.825524577372473]
幾何学的特徴再構成に基づくポイントクラウド表現学習フレームワークを提案する。
我々は,3つの自己教師型学習目標を特異点雲,すなわちセントロイド予測,正規推定,曲率予測と同定する。
私たちのパイプラインは概念的にはシンプルで、まずポイントのグループをランダムにマスキングし、次にTransformerベースのポイントクラウドエンコーダという2つの大きなステップで構成されています。
論文 参考訳(メタデータ) (2023-05-15T17:14:55Z) - PointCA: Evaluating the Robustness of 3D Point Cloud Completion Models
Against Adversarial Examples [63.84378007819262]
本稿では,3次元クラウド完了モデルに対する最初の逆攻撃であるPointCAを提案する。
ポイントCAは、元のものと高い類似性を維持する逆点雲を生成することができる。
その結果,PointCAは77.9%から16.7%に低下し,その構造は0.01以下であることがわかった。
論文 参考訳(メタデータ) (2022-11-22T14:15:41Z) - Upsampling Autoencoder for Self-Supervised Point Cloud Learning [11.19408173558718]
人間のアノテーションを使わずに、ポイントクラウド学習のための自己教師付き事前学習モデルを提案する。
アップサンプリング操作は、ポイントクラウドの高レベルセマンティック情報と低レベル幾何情報の両方を捕捉することをネットワークに促す。
我々のUAEは、形状分類、部分分割、点雲アップサンプリングタスクにおいて、従来の最先端手法よりも優れています。
論文 参考訳(メタデータ) (2022-03-21T07:20:37Z) - PointAttN: You Only Need Attention for Point Cloud Completion [89.88766317412052]
ポイント・クラウド・コンプリート(Point cloud completion)とは、部分的な3次元ポイント・クラウドから3次元の形状を完成させることである。
そこで我々は,kNNを除去するために,ポイントクラウドをポイント単位に処理する新しいニューラルネットワークを提案する。
提案するフレームワークであるPointAttNはシンプルで簡潔で効果的であり、3次元形状の構造情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2022-03-16T09:20:01Z) - Refinement of Predicted Missing Parts Enhance Point Cloud Completion [62.997667081978825]
点雲完了は、部分的な観測から3次元形状の点集合表現を用いて完全な幾何学を予測するタスクである。
従来のアプローチでは、不完全点集合によって供給されるエンコーダ・デコーダモデルにより、点雲全体を直接推定するニューラルネットワークが提案されていた。
本稿では、欠落した幾何を計算し、既知の入力と予測点クラウドを融合することに焦点を当てたエンドツーエンドニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。