論文の概要: Point-RTD: Replaced Token Denoising for Pretraining Transformer Models on Point Clouds
- arxiv url: http://arxiv.org/abs/2509.17207v1
- Date: Sun, 21 Sep 2025 19:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.166357
- Title: Point-RTD: Replaced Token Denoising for Pretraining Transformer Models on Point Clouds
- Title(参考訳): Point-RTD: 点雲上の変圧器モデルの事前学習のための代替トークンデノベーション
- Authors: Gunner Stone, Youngsook Choi, Alireza Tavakkoli, Ankita Shukla,
- Abstract要約: 本稿ではトークンのロバスト性を改善するために設計された新しい事前学習戦略であるPoint-RTD(Replaced Token Denoising)を紹介する。
ShapeNetデータセットでは、Point-RTDはPointMAEと比較して復元誤差を93%以上削減し、Chamfer Distanceの14倍以上低い値を達成する。
- 参考スコア(独自算出の注目度): 3.0232213779552803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training strategies play a critical role in advancing the performance of transformer-based models for 3D point cloud tasks. In this paper, we introduce Point-RTD (Replaced Token Denoising), a novel pretraining strategy designed to improve token robustness through a corruption-reconstruction framework. Unlike traditional mask-based reconstruction tasks that hide data segments for later prediction, Point-RTD corrupts point cloud tokens and leverages a discriminator-generator architecture for denoising. This shift enables more effective learning of structural priors and significantly enhances model performance and efficiency. On the ShapeNet dataset, Point-RTD reduces reconstruction error by over 93% compared to PointMAE, and achieves more than 14x lower Chamfer Distance on the test set. Our method also converges faster and yields higher classification accuracy on ShapeNet, ModelNet10, and ModelNet40 benchmarks, clearly outperforming the baseline Point-MAE framework in every case.
- Abstract(参考訳): 事前トレーニング戦略は、3Dポイントクラウドタスクのためのトランスフォーマーベースのモデルのパフォーマンス向上に重要な役割を果たしている。
本稿では,トークンのロバスト性向上を目的とした新しい事前学習手法であるPoint-RTD(Replaced Token Denoising)を紹介する。
後続の予測のためにデータセグメントを隠す従来のマスクベースの再構築タスクとは異なり、Point-RTDはポイントクラウドトークンを破損させ、識別器ジェネレータアーキテクチャを活用して復調する。
このシフトは、構造的事前のより効果的な学習を可能にし、モデルの性能と効率を大幅に向上させる。
ShapeNetデータセットでは、Point-RTDはPointMAEと比較して復元誤差を93%以上削減し、テストセット上で14倍以上のシャムファー距離を達成する。
また,本手法はより高速に収束し,ShapeNet,ModelNet10,ModelNet40ベンチマークの分類精度が向上する。
関連論文リスト
- Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文 参考訳(メタデータ) (2025-08-30T06:02:21Z) - Taming Anomalies with Down-Up Sampling Networks: Group Center Preserving Reconstruction for 3D Anomaly Detection [59.822737536103155]
グループ中心幾何構造を保存して3次元異常検出のための高精度点雲を再構成するために,ダウンアップサンプリングネットワーク(DUS-Net)を提案する。
提案手法は、オブジェクトレベルのAUROCの79.9%と79.5%、Real3D-ADおよびAnomaly-ShapeNetデータセットの71.2%と84.7%のポイントレベルのAUROCを用いて、最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2025-07-05T05:05:36Z) - Efficient Point Transformer with Dynamic Token Aggregating for LiDAR Point Cloud Processing [19.73918716354272]
LiDARポイントクラウド処理と解析は、3Dトランスの開発によって大きな進歩を遂げた。
既存の3Dトランスフォーマー法は通常、計算コストが高く、大きな注意マップと冗長な注意マップのために非効率である。
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z) - CpT: Convolutional Point Transformer for 3D Point Cloud Processing [10.389972581905]
CpT: Convolutional Point Transformer - 3Dポイントクラウドデータの非構造化の性質を扱うための新しいディープラーニングアーキテクチャ。
CpTは、既存の注目ベースのConvolutions Neural Networksと、以前の3Dポイントクラウド処理トランスフォーマーの改善である。
我々のモデルは、既存の最先端のアプローチと比較して、様々なポイントクラウド処理タスクの効果的なバックボーンとして機能する。
論文 参考訳(メタデータ) (2021-11-21T17:45:55Z) - TENT: Efficient Quantization of Neural Networks on the tiny Edge with
Tapered FixEd PoiNT [3.6048665052465663]
TinyMLモデルにおけるテーパー固定点数値フォーマットの利点を活用するために、新しい低精度フレームワークTENTを提案します。
本稿では,数値フォーマットの動的範囲と分布を,各層におけるディープニューラルネットワークモデルのパラメータ分布とマッチングするテーパ付き固定点量子化アルゴリズムを提案する。
その結果,convnetおよびresnet-18モデルでは,固定点と比較してエネルギーオーバーヘッドが17~30%と,分類タスクの精度が最大31%向上した。
論文 参考訳(メタデータ) (2021-04-06T01:54:32Z) - Deep-3DAligner: Unsupervised 3D Point Set Registration Network With
Optimizable Latent Vector [15.900382629390297]
本稿では,3次元登録における技術的課題に対処するために,学習に最適化を統合する新しいモデルを提案する。
ディープトランスフォーメーションデコーディングネットワークに加えて、我々のフレームワークは最適化可能なディープアンダーラインSpatial UnderlineCorrelation UnderlineRepresentationを導入している。
論文 参考訳(メタデータ) (2020-09-29T22:44:38Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。