論文の概要: P3T: Prototypical Point-level Prompt Tuning with Enhanced Generalization for 3D Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.15703v1
- Date: Fri, 17 Apr 2026 05:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.742936
- Title: P3T: Prototypical Point-level Prompt Tuning with Enhanced Generalization for 3D Vision-Language Models
- Title(参考訳): P3T:3次元視覚言語モデルのための拡張一般化による原型点レベルプロンプトチューニング
- Authors: Geunyoung Jung, Soohong Kim, Kyungwoo Song, Jiyoung Jung,
- Abstract要約: 3次元視覚言語モデル(VLM)のためのパラメータ効率なプロンプトチューニング法であるP$3$T(Ptotypeal Point-level Prompt Tuning)
P$3$Tは、入力ポイントクラウドのインスタンス認識ポイントレベルのプロンプトを生成するtextitPoint Prompterと、手作りのプロンプトではなく、入力テキストへの学習可能なプロンプトを使用するtextitText Prompterの2つのコンポーネントで構成されている。
我々の手法は、分類と数発の学習において完全な微調整に適合または優れ、さらにデータに基づく堅牢な一般化を示す。
- 参考スコア(独自算出の注目度): 15.665642095045305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of pre-trained models in the 3D point cloud domain for a wide range of real-world applications, adapting them to downstream tasks has become increasingly important. However, conventional full fine-tuning methods are computationally expensive and storage-intensive. Although prompt tuning has emerged as an efficient alternative, it often suffers from overfitting, thereby compromising generalization capability. To address this issue, we propose Prototypical Point-level Prompt Tuning (P$^3$T), a parameter-efficient prompt tuning method designed for pre-trained 3D vision-language models (VLMs). P$^3$T consists of two components: 1) \textit{Point Prompter}, which generates instance-aware point-level prompts for the input point cloud, and 2) \textit{Text Prompter}, which employs learnable prompts into the input text instead of hand-crafted ones. Since both prompters operate directly on input data, P$^3$T enables task-specific adaptation of 3D VLMs without sacrificing generalizability. Furthermore, to enhance embedding space alignment, which is key to fine-tuning 3D VLMs, we introduce a prototypical loss that reduces intra-category variance. Extensive experiments demonstrate that our method matches or outperforms full fine-tuning in classification and few-shot learning, and further exhibits robust generalization under data shift in the cross-dataset setting. The code is available at \textcolor{violet}{https://github.com/gyjung975/P3T}.
- Abstract(参考訳): 3Dポイントクラウド領域における、さまざまな現実世界のアプリケーションに対する事前トレーニングモデルの増加に伴い、下流タスクへの適応がますます重要になっている。
しかし、従来のフル微調整法は計算コストが高く、ストレージ集約である。
迅速なチューニングは効率的な代替手段として現れてきたが、しばしば過度な適合に悩まされ、それによって一般化能力が損なわれる。
この問題に対処するため,プリトレーニングされた3次元視覚言語モデル(VLM)用に設計されたパラメータ効率の高いプロンプトチューニング手法であるP$^3$Tを提案する。
P$3$Tは2つの成分からなる。
1) \textit{Point Prompter} 入力ポイントクラウドのインスタンス対応ポイントレベルプロンプトを生成し、
2) \textit{Text Prompter} - 手作りのプロンプトではなく、入力テキストに学習可能なプロンプトを使用する。
どちらのプロンプトも入力データを直接操作するため、P$^3$Tは汎用性を犠牲にすることなく3D VLMのタスク固有の適応を可能にする。
さらに, 3次元VLMの微調整の鍵となる埋め込み空間アライメントを強化するために, カテゴリ内分散を減少させるような原型的損失を導入する。
大規模な実験により,本手法は分類および数ショット学習において完全微調整に適合し,また,データセット間設定におけるデータシフト下での堅牢な一般化を示す。
コードは textcolor{violet}{https://github.com/gyjung975/P3T} で公開されている。
関連論文リスト
- PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models [23.263895549689863]
既存の手法は、言語のトークンのみを監督に用いながら、次世代の予測損失にのみ依存する。
mnameは、微粒な3次元幾何学的意味情報を保持するために、中間点のクラウドトークンを明示的に監督する。
モデルNet40および逆データセットを用いた実験により,本手法は,分類タスクの平均値に対して,textbf2.08ppの改善を達成できることを示した。
論文 参考訳(メタデータ) (2026-02-28T02:17:46Z) - PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - LitePT: Lighter Yet Stronger Point Transformer [50.6430530112838]
我々は3Dポイント・クラウド・ネットワークにおける異なる計算ブロックの役割を解析する。
我々は、初期段階で畳み込みを採用し、より深い層に注意を向ける新しい改良された3Dポイントクラウドバックボーンを提案する。
結果として、LitePTモデルはパラメータが3.6倍、2倍の速度で動作し、最新技術であるPoint Transformer V3よりも2倍のメモリを消費する。
論文 参考訳(メタデータ) (2025-12-15T18:59:57Z) - Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文 参考訳(メタデータ) (2025-08-30T06:02:21Z) - Fast3D: Accelerating 3D Multi-modal Large Language Models for Efficient 3D Scene Understanding [24.964149224068027]
我々は,3D MLLM のためのプラグ&プレイ型ビジュアルトークン解析フレームワークである Fast3D を提案する。
グローバルアテンション予測(GAP)は,目標モデルのグローバルアテンション分布を予測し,トークンの効果的な重要度推定を可能にする。
SAPは、注意に基づく複雑性評価を通じて動的トークン予算を導入し、レイヤーワイドプルーニング比率を自動的に調整する。
論文 参考訳(メタデータ) (2025-07-12T16:29:02Z) - Parameter-efficient Prompt Learning for 3D Point Cloud Understanding [10.23165979353247]
本稿では,3次元点雲理解のための大規模マルチモーダルモデルに適用するためのパラメータ効率のよいプロンプトチューニング手法を提案する。
PromptLearnerモジュールは、手作りのプロンプトを学習可能なコンテキストに置き換えるように設計されている。
軽量のPointAdapterモジュールは、3Dポイントクラウド理解のためのプロンプトチューニングを強化するために、ターゲットタスクの近くに配置される。
論文 参考訳(メタデータ) (2024-02-24T14:20:50Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models [46.42092771753465]
我々は、最小限の学習可能なパラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。
具体的には、事前訓練された3Dモデルに対して、パラメータの大部分を凍結し、新たに追加されたPEFTモジュールを下流タスクでチューニングする。
論文 参考訳(メタデータ) (2023-10-04T16:49:36Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。