論文の概要: Pointy - A Lightweight Transformer for Point Cloud Foundation Models
- arxiv url: http://arxiv.org/abs/2603.10963v1
- Date: Wed, 11 Mar 2026 16:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.06043
- Title: Pointy - A Lightweight Transformer for Point Cloud Foundation Models
- Title(参考訳): Pointy - Point Cloud Foundationモデルのための軽量トランスフォーマー
- Authors: Konrad Szafer, Marek Kraft, Dominik Belter,
- Abstract要約: 軽量なトランスフォーマーベースのポイントクラウドアーキテクチャを導入します。
我々のモデルは39k点の雲でしか訓練されていない。
200k以上のトレーニングサンプルでトレーニングされた、より大きな基礎モデルよりも優れています。
- 参考スコア(独自算出の注目度): 1.6695325461264092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models for point cloud data have recently grown in capability, often leveraging extensive representation learning from language or vision. In this work, we take a more controlled approach by introducing a lightweight transformer-based point cloud architecture. In contrast to the heavy reliance on cross-modal supervision, our model is trained only on 39k point clouds - yet it outperforms several larger foundation models trained on over 200k training samples. Interestingly, our method approaches state-of-the-art results from models that have seen over a million point clouds, images, and text samples, demonstrating the value of a carefully curated training setup and architecture. To ensure rigorous evaluation, we conduct a comprehensive replication study that standardizes the training regime and benchmarks across multiple point cloud architectures. This unified experimental framework isolates the impact of architectural choices, allowing for transparent comparisons and highlighting the benefits of our design and other tokenizer-free architectures. Our results show that simple backbones can deliver competitive results to more complex or data-rich strategies. The implementation, including code, pre-trained models, and training protocols, is available at https://github.com/KonradSzafer/Pointy.
- Abstract(参考訳): ポイントクラウドデータのファンデーションモデルは、しばしば言語やビジョンからの広範な表現学習を活用することで、最近能力が高まっている。
本研究では、軽量トランスフォーマーベースのポイントクラウドアーキテクチャを導入することにより、より制御されたアプローチをとる。
クロスモーダルな監視に大きく依存しているのとは対照的に、我々のモデルは39kポイントのクラウドでのみトレーニングされていますが、200k以上のトレーニングサンプルでトレーニングされたより大きな基盤モデルよりも優れています。
興味深いことに,本手法は,100万点以上のクラウド,画像,テキストサンプルを網羅したモデルから最新の結果にアプローチし,慎重にキュレートされたトレーニング設定とアーキテクチャの価値を実証する。
厳密な評価を確保するため、複数のポイントクラウドアーキテクチャにわたるトレーニング体制とベンチマークを標準化する包括的なレプリケーション研究を行っている。
この統一された実験フレームワークは、アーキテクチャ選択の影響を分離し、透過的な比較を可能にし、設計と他のトークンフリーアーキテクチャの利点を強調します。
我々の結果は、単純なバックボーンがより複雑でデータ豊富な戦略に競争力のある結果をもたらすことを示しています。
コード、事前訓練されたモデル、トレーニングプロトコルを含む実装はhttps://github.com/KonradSzafer/Pointy.comで公開されている。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - ViPFormer: Efficient Vision-and-Pointcloud Transformer for Unsupervised
Pointcloud Understanding [3.7966094046587786]
単一アーキテクチャで画像とポイントクラウド処理を統合する軽量なViPFormer(ViPFormer)を提案する。
ViPFormerは、モーダル内およびクロスモーダルのコントラスト目的を最適化することにより、教師なしの方法で学習する。
異なるデータセットの実験では、ViPFormerは、より精度が高く、モデルの複雑さが低く、実行レイテンシが低い、従来の最先端の教師なしメソッドを上回っている。
論文 参考訳(メタデータ) (2023-03-25T06:47:12Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - A Simple Structure For Building A Robust Model [7.8383976168377725]
本研究では,ある程度のロバスト性を持つモデルを構築するためのシンプルなアーキテクチャを提案し,協調学習のための対向サンプル検出ネットワークを追加することにより,トレーニングネットワークのロバスト性を向上させる。
我々はCifar10データセットに基づいて,この設計の有効性をテストする実験を行った。
論文 参考訳(メタデータ) (2022-04-25T12:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。