論文の概要: Positional Prompt Tuning for Efficient 3D Representation Learning
- arxiv url: http://arxiv.org/abs/2408.11567v1
- Date: Wed, 21 Aug 2024 12:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-22 17:07:27.265153
- Title: Positional Prompt Tuning for Efficient 3D Representation Learning
- Title(参考訳): 効率的な3次元表現学習のための位置プロンプトチューニング
- Authors: Shaochen Zhang, Zekun Qi, Runpei Dong, Xiuxiu Bai, Xing Wei,
- Abstract要約: ポイントクラウド分析は大きな発展を遂げており、ポイントクラウドの分類やセグメンテーションなど、複数のダウンストリームタスクでうまく機能している。
トランスフォーマーアーキテクチャにおける位置符号化構造の単純さを意識して、高次元部分としての位置符号化と、マルチスケール情報を提供するパッチエンコーダを重要視する。
ScanObjectNN OBJ_BGデータセットの95.01%の精度など、いくつかの主流データセットにおいて、PEFTタスクの提案した手法は、トレーニング用のパラメータの1.05%しか持たない。
- 参考スコア(独自算出の注目度): 16.25423192020736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point cloud analysis has achieved significant development and is well-performed in multiple downstream tasks like point cloud classification and segmentation, etc. Being conscious of the simplicity of the position encoding structure in Transformer-based architectures, we attach importance to the position encoding as a high-dimensional part and the patch encoder to offer multi-scale information. Together with the sequential Transformer, the whole module with position encoding comprehensively constructs a multi-scale feature abstraction module that considers both the local parts from the patch and the global parts from center points as position encoding. With only a few parameters, the position embedding module fits the setting of PEFT (Parameter-Efficient Fine-Tuning) tasks pretty well. Thus we unfreeze these parameters as a fine-tuning part. At the same time, we review the existing prompt and adapter tuning methods, proposing a fresh way of prompts and synthesizing them with adapters as dynamic adjustments. Our Proposed method of PEFT tasks, namely PPT, with only 1.05% of parameters for training, gets state-of-the-art results in several mainstream datasets, such as 95.01% accuracy in the ScanObjectNN OBJ_BG dataset. Codes will be released at https://github.com/zsc000722/PPT.
- Abstract(参考訳): ポイントクラウド分析は大きな発展を遂げており、ポイントクラウドの分類やセグメンテーションなど、複数のダウンストリームタスクでうまく機能している。
トランスフォーマーアーキテクチャにおける位置符号化構造の単純さを意識して、高次元部分としての位置符号化と、マルチスケール情報を提供するパッチエンコーダを重要視する。
シーケンシャルトランスフォーマーとともに、位置エンコーディングを備えた全モジュールは、パッチからのローカル部分とセンターポイントからのグローバル部分の両方を位置エンコーディングとして考慮したマルチスケールの機能抽象化モジュールを包括的に構築する。
わずかなパラメータだけで、位置埋め込みモジュールはPEFT(Parameter-Efficient Fine-Tuning)タスクの設定に非常に適している。
したがって、これらのパラメータを微調整部分として解凍する。
同時に、我々は既存のプロンプトとアダプタのチューニング方法を見直し、新しいプロンプトの方法を提案し、動的調整としてアダプタでそれらを合成する。
ScanObjectNN OBJ_BGデータセットの95.01%の精度など、いくつかの主流データセットにおいて、PEFTタスクの手法、すなわち、トレーニングのためのパラメータの1.05%しか持たないPTTは、最先端の結果を得る。
コードはhttps://github.com/zsc000722/PPTでリリースされる。
関連論文リスト
- Depth Completion as Parameter-Efficient Test-Time Adaptation [66.72360181325877]
CAPAはパラメータ効率のよいテスト時間最適化フレームワークであり、深度補完のために事前訓練された3D基礎モデル(FM)を適用する。
ビデオの場合、CAPAはシーケンスレベルのパラメータ共有を導入し、時間的相関を利用して、堅牢性を改善し、複数フレームの一貫性を強制するために、すべてのフレームを共同で適用する。
論文 参考訳(メタデータ) (2026-02-16T13:53:23Z) - Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers [1.19658449368018]
本稿では,近接グラフ(STAG)上でのサイドトークン適応(Side Token Adaptation)と呼ばれる新しいPEFTアルゴリズムを提案する。
STAGは、下流タスクにトークンを適用するために、凍結バックボーントランスフォーマーと並行して動作するグラフ畳み込みサイドネットワークを使用している。
また、さまざまな公開3Dポイントクラウドデータセットからなる新しいベンチマークであるPoint Cloud Classification 13 (PCC13)も紹介する。
論文 参考訳(メタデータ) (2025-02-19T22:58:56Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。
インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。
具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-04T16:06:23Z) - Soft Masked Transformer for Point Cloud Processing with Skip Attention-Based Upsampling [28.218242268501]
我々は、タスクレベルの情報をエンコードステージに統合することで、パフォーマンスが大幅に向上すると主張している。
符号化層と復号層の機能間の効果的な通信を容易にするために,スキップアテンションに基づくアップサンプリングブロックを導入する。
S3DISエリア5では73.4% mIoU、SWANデータセットでは62.4% mIoUである。
論文 参考訳(メタデータ) (2024-03-21T04:34:24Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Parameter-efficient Prompt Learning for 3D Point Cloud Understanding [10.23165979353247]
本稿では,3次元点雲理解のための大規模マルチモーダルモデルに適用するためのパラメータ効率のよいプロンプトチューニング手法を提案する。
PromptLearnerモジュールは、手作りのプロンプトを学習可能なコンテキストに置き換えるように設計されている。
軽量のPointAdapterモジュールは、3Dポイントクラウド理解のためのプロンプトチューニングを強化するために、ターゲットタスクの近くに配置される。
論文 参考訳(メタデータ) (2024-02-24T14:20:50Z) - Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models [46.42092771753465]
我々は、最小限の学習可能なパラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。
具体的には、事前訓練された3Dモデルに対して、パラメータの大部分を凍結し、新たに追加されたPEFTモジュールを下流タスクでチューニングする。
論文 参考訳(メタデータ) (2023-10-04T16:49:36Z) - Improving Position Encoding of Transformers for Multivariate Time Series
Classification [5.467400475482668]
本稿では,時間絶対位置という時系列データ専用の絶対位置符号化手法を提案する。
次に,TAPE/eRPEとConvTranという名前の畳み込み型入力符号化を組み合わせた新しい時系列分類(MTSC)モデルを提案し,時系列データの位置とデータ埋め込みを改善する。
論文 参考訳(メタデータ) (2023-05-26T05:30:04Z) - Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models [64.49254199311137]
本稿では,事前学習点クラウドモデルのための新しいインスタンス対応動的プロンプトチューニング(IDPT)戦略を提案する。
IDPTの本質は、各ポイントクラウドインスタンスのセマンティックな事前特徴を知覚する動的プロンプト生成モジュールを開発することである。
実験では、IDPTはトレーニング可能なパラメータのわずか7%で、ほとんどのタスクにおいて完全な微調整よりも優れています。
論文 参考訳(メタデータ) (2023-04-14T16:03:09Z) - Position-Guided Point Cloud Panoptic Segmentation Transformer [118.17651196656178]
この作業は、LiDARベースのポイントクラウドセグメンテーションにこの魅力的なパラダイムを適用し、シンプルだが効果的なベースラインを得ることから始まります。
スパース点雲のインスタンスはシーン全体に対して比較的小さく、しばしば類似した形状を持つが、画像領域では珍しいセグメンテーションの外観が欠如している。
position-guided Point cloud Panoptic segmentation transFormer (P3Former) と名付けられたこの手法は、Semantic KITTI と nuScenes のベンチマークでそれぞれ3.4%、そして 1.2%の性能をそれぞれ上回っている。
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Robust Partial-to-Partial Point Cloud Registration in a Full Range [12.86951061306046]
本稿では,全方向1の部分対部分点クラウド登録(PPR)のためのポーズ不変対応を推定するグラフマッチング・コンセンサス・ネットワーク(GMCNet)を提案する。
GMCNetは、個別に各点クラウドのポイント記述子を、クロスコンテクスト情報や、トレーニングのための接地真理対応を使わずに符号化する。
論文 参考訳(メタデータ) (2021-11-30T17:56:24Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。