論文の概要: Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis
- arxiv url: http://arxiv.org/abs/2509.00374v1
- Date: Sat, 30 Aug 2025 06:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.201988
- Title: Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis
- Title(参考訳): Adaptive Point-Prompt Tuning:3次元点雲解析のための微調整不均一基礎モデル
- Authors: Mengke Li, Lihao Chen, Peng Zhang, Yiu-ming Cheung, Hui Huang,
- Abstract要約: 本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
- 参考スコア(独自算出の注目度): 51.37795317716487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning strategies for foundation models in 1D textual and 2D visual analysis have demonstrated remarkable efficacy. However, due to the scarcity of point cloud data, pre-training large 3D models remains a challenging task. While many efforts have been made to apply pre-trained visual models to 3D domains through "high-to-low" mapping, these approaches often lead to the loss of spatial geometries and lack a generalizable framework for adapting any modality to 3D. This paper, therefore, attempts to directly leverage point features to calibrate the heterogeneous foundation model of any modality for 3D point cloud analysis. Specifically, we propose the Adaptive Point-Prompt Tuning (APPT) method, which fine-tunes pre-trained models with a modest number of parameters, enabling direct point cloud processing without heterogeneous mappings. We convert raw point clouds into point embeddings by aggregating local geometry to capture spatial features followed by linear layers to ensure seamless utilization of frozen pre-trained models. Given the inherent disorder of point clouds, in contrast to the structured nature of images and language, we employ a permutation-invariant feature to capture the relative positions of point embeddings, thereby obtaining point tokens enriched with location information to optimize self-attention mechanisms. To calibrate self-attention across source domains of any modality to 3D and reduce computational overhead, we introduce a prompt generator that shares weights with the point embedding module, dynamically producing point-prompts without adding additional parameters. These prompts are then concatenated into a frozen foundation model, providing rich global structural information and compensating for the lack of structural context in the heterogeneous data.
- Abstract(参考訳): 1次元テキストおよび2次元視覚解析における基礎モデルのパラメータ効率の良い微調整戦略は顕著な有効性を示した。
しかし、ポイントクラウドデータの不足のため、大規模な3Dモデルの事前トレーニングは依然として難しい課題である。
事前学習された視覚モデルを「ハイ・ツー・ロー」マッピングによって3D領域に適用する試みは数多く行われているが、これらの手法は空間的幾何学の喪失を招き、任意のモダリティを3Dに適応するための一般化可能な枠組みを欠いている。
そこで本論文は,3次元点雲解析における不均質基礎モデルの校正に点特徴を直接活用する試みである。
具体的には、パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT) 法を提案し、不均一なマッピングを伴わない直接点クラウド処理を可能にする。
我々は,原点雲を局所幾何学を集約して点埋め込みに変換し,空間的特徴を捉える。
画像や言語の構造的性質とは対照的に,点雲の固有な乱れを考慮し,各点埋め込みの相対的な位置を捉え,位置情報に富んだ点トークンを取得し,自己認識機構を最適化する。
任意のモダリティのソース領域にまたがる自己注意を3次元に調整し,計算オーバーヘッドを低減するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入し,パラメータを追加することなく動的に点プロンプトを生成する。
これらのプロンプトは凍結基盤モデルに連結され、豊富なグローバルな構造情報を提供し、不均一なデータにおける構造的コンテキストの欠如を補う。
関連論文リスト
- DG-MVP: 3D Domain Generalization via Multiple Views of Point Clouds for Classification [10.744510913722817]
ディープニューラルネットワークは3Dポイントクラウド分類において大きな成功を収めている。
本稿では,3次元クラウド領域の一般化問題に焦点をあてる。
本稿では,3次元点雲領域の一般化手法を提案する。
論文 参考訳(メタデータ) (2025-04-16T19:43:32Z) - 3D Point Cloud Generation via Autoregressive Up-sampling [60.05226063558296]
我々は3Dポイントクラウド生成のための先駆的な自己回帰生成モデルを導入する。
視覚的自己回帰モデリングにインスパイアされた我々は、ポイントクラウド生成を自己回帰的アップサンプリングプロセスとして概念化する。
PointARUは、3Dポイントの雲を粗いものから細かいものへと徐々に洗練する。
論文 参考訳(メタデータ) (2025-03-11T16:30:45Z) - Position-aware Guided Point Cloud Completion with CLIP Model [25.084811702682778]
本稿では,単一モーダルフレームワークをマルチモーダルフレームワークに拡張するための迅速かつ効率的な手法を提案する。
このアプローチには、欠落部分の空間情報を強化するために設計された位置認識モジュールが組み込まれている。
さらに,既存の単調なクラウド補完データセットに基づいて,PCI-TIとMVP-TIの3重画像コーパスを確立する。
論文 参考訳(メタデータ) (2024-12-11T10:43:11Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - CloudFixer: Test-Time Adaptation for 3D Point Clouds via Diffusion-Guided Geometric Transformation [33.07886526437753]
実世界のセンサーから捉えた3Dポイントの雲は、様々な障害物のためにしばしばノイズの多い点を包含する。
これらの課題は、クリーンポイントクラウドでトレーニングされたトレーニング済みのポイントクラウド認識モデルのデプロイを妨げる。
本研究では,3次元点雲に適したテスト時間入力適応法であるCloudFixerを提案する。
論文 参考訳(メタデータ) (2024-07-23T05:35:04Z) - ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds [52.03819676074455]
ParaPointは、グローバルな自由境界面パラメータ化を実現するための教師なしのニューラルネットワークパイプラインである。
この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化を調査する最初の試みである。
論文 参考訳(メタデータ) (2024-03-15T14:35:05Z) - Flow-based GAN for 3D Point Cloud Generation from a Single Image [16.04710129379503]
本稿では,任意の解像度の点群をサンプリングするためのフローベース明示的生成モデルを継承する,ハイブリッドな明示的生成モデルを提案する。
大規模合成データセットShapeNetについて評価し,提案手法の優れた性能を示す実験結果を得た。
論文 参考訳(メタデータ) (2022-10-08T17:58:20Z) - Dual Adaptive Transformations for Weakly Supervised Point Cloud
Segmentation [78.6612285236938]
弱制御点雲分割のための新しいDATモデル(textbfDual textbfAdaptive textbfTransformations)を提案する。
我々は,大規模S3DISデータセットとScanNet-V2データセットの2つの人気バックボーンを用いたDATモデルの評価を行った。
論文 参考訳(メタデータ) (2022-07-19T05:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。