論文の概要: Token Adaptation via Side Graph Convolution for Temporally and Spatially Efficient Fine-tuning of 3D Point Cloud Transformers
- arxiv url: http://arxiv.org/abs/2502.14142v1
- Date: Wed, 19 Feb 2025 22:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:33.791226
- Title: Token Adaptation via Side Graph Convolution for Temporally and Spatially Efficient Fine-tuning of 3D Point Cloud Transformers
- Title(参考訳): 3Dポイント・クラウド・トランスの時間的・空間的に効率的な微調整のためのサイドグラフ畳み込みによるトークン適応
- Authors: Takahiko Furuya,
- Abstract要約: 本稿では,近隣グラフ(STAG)上でのサイドトークン適応と呼ばれる,3次元点群変換器のための新しいPEFTアルゴリズムを提案する。
STAGは、下流タスクにトークンを適用するために、凍結バックボーントランスフォーマーと並行して動作するグラフ畳み込みサイドネットワークを使用している。
我々は、さまざまな公開3Dポイントクラウドデータセットからなる新しいベンチマークであるPoint Cloud Classification 13 (PCC13)を提示する。
- 参考スコア(独自算出の注目度): 1.19658449368018
- License:
- Abstract: Parameter-efficient fine-tuning (PEFT) of pre-trained 3D point cloud Transformers has emerged as a promising technique for 3D point cloud analysis. While existing PEFT methods attempt to minimize the number of tunable parameters, they still suffer from high temporal and spatial computational costs during fine-tuning. This paper proposes a novel PEFT algorithm for 3D point cloud Transformers, called Side Token Adaptation on a neighborhood Graph (STAG), to achieve superior temporal and spatial efficiency. STAG employs a graph convolutional side network that operates in parallel with a frozen backbone Transformer to adapt tokens to downstream tasks. STAG's side network realizes high efficiency through three key components: connection with the backbone that enables reduced gradient computation, parameter sharing framework, and efficient graph convolution. Furthermore, we present Point Cloud Classification 13 (PCC13), a new benchmark comprising diverse publicly available 3D point cloud datasets, enabling comprehensive evaluation of PEFT methods. Extensive experiments using multiple pre-trained models and PCC13 demonstrates the effectiveness of STAG. Specifically, STAG maintains classification accuracy comparable to existing methods while reducing tunable parameters to only 0.43M and achieving significant reductions in both computational time and memory consumption for fine-tuning. Code and benchmark will be available at: https://github.com/takahikof/STAG
- Abstract(参考訳): 事前学習した3Dポイントクラウド変換器のパラメータ効率のよい微調整(PEFT)が,3Dポイントクラウド解析の有望な手法として登場した。
既存のPEFT法は、調整可能なパラメータの数を最小化しようとするが、微調整時の時間的・空間的な計算コストが高い。
本稿では, 近接グラフ (STAG) 上でのサイドトークン適応 (Side Token Adaptation on a neighborhood Graph) と呼ばれる, 3次元点群変換器のための新しいPEFTアルゴリズムを提案する。
STAGは、下流タスクにトークンを適用するために、凍結バックボーントランスフォーマーと並行して動作するグラフ畳み込みサイドネットワークを使用している。
STAGのサイドネットワークは、3つの重要なコンポーネント(勾配計算の削減を可能にするバックボーンとの接続、パラメータ共有フレームワーク、効率的なグラフ畳み込み)を通して高い効率を実現する。
さらに,多種多様な公開3Dポイントクラウドデータセットからなる新しいベンチマークであるポイントクラウド分類13(PCC13)を提示し,PEFT手法の総合的な評価を可能にした。
複数の事前学習モデルとPCC13を用いた大規模な実験はSTAGの有効性を示す。
具体的には、STAGは既存の手法に匹敵する分類精度を維持しながら、調整可能なパラメータをわずか0.43Mに減らし、微調整のための計算時間とメモリ消費の両方において大幅な削減を実現している。
コードとベンチマークは:https://github.com/takahikof/STAG
関連論文リスト
- Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Adaptive Point Transformer [88.28498667506165]
Adaptive Point Cloud Transformer (AdaPT) は、適応トークン選択機構によって強化された標準PTモデルである。
AdaPTは推論中のトークン数を動的に削減し、大きな点雲の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2024-01-26T13:24:45Z) - Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models [46.42092771753465]
我々は、最小限の学習可能なパラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。
具体的には、事前訓練された3Dモデルに対して、パラメータの大部分を凍結し、新たに追加されたPEFTモジュールを下流タスクでチューニングする。
論文 参考訳(メタデータ) (2023-10-04T16:49:36Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。