論文の概要: LitePT: Lighter Yet Stronger Point Transformer
- arxiv url: http://arxiv.org/abs/2512.13689v1
- Date: Mon, 15 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.833938
- Title: LitePT: Lighter Yet Stronger Point Transformer
- Title(参考訳): LitePT:より軽いポイント変換器
- Authors: Yuanwen Yue, Damien Robert, Jianyuan Wang, Sunghwan Hong, Jan Dirk Wegner, Christian Rupprecht, Konrad Schindler,
- Abstract要約: 我々は3Dポイント・クラウド・ネットワークにおける異なる計算ブロックの役割を解析する。
我々は、初期段階で畳み込みを採用し、より深い層に注意を向ける新しい改良された3Dポイントクラウドバックボーンを提案する。
結果として、LitePTモデルはパラメータが3.6倍、2倍の速度で動作し、最新技術であるPoint Transformer V3よりも2倍のメモリを消費する。
- 参考スコア(独自算出の注目度): 50.6430530112838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural architectures for 3D point cloud processing contain both convolutional layers and attention blocks, but the best way to assemble them remains unclear. We analyse the role of different computational blocks in 3D point cloud networks and find an intuitive behaviour: convolution is adequate to extract low-level geometry at high-resolution in early layers, where attention is expensive without bringing any benefits; attention captures high-level semantics and context in low-resolution, deep layers more efficiently. Guided by this design principle, we propose a new, improved 3D point cloud backbone that employs convolutions in early stages and switches to attention for deeper layers. To avoid the loss of spatial layout information when discarding redundant convolution layers, we introduce a novel, training-free 3D positional encoding, PointROPE. The resulting LitePT model has $3.6\times$ fewer parameters, runs $2\times$ faster, and uses $2\times$ less memory than the state-of-the-art Point Transformer V3, but nonetheless matches or even outperforms it on a range of tasks and datasets. Code and models are available at: https://github.com/prs-eth/LitePT.
- Abstract(参考訳): 現代の3Dポイントクラウド処理のニューラルネットワークアーキテクチャは、畳み込み層とアテンションブロックの両方を含んでいるが、それらを組み立てる最善の方法は未だに不明である。
我々は3Dポイントクラウドネットワークにおける異なる計算ブロックの役割を分析し、直感的な振る舞いを見出す:畳み込みは早期の階層において高解像度で低レベルな幾何学を抽出するのに適しており、注意は利益をもたらすことなく高価である;注意は低解像度の深層における高レベルな意味論と文脈をより効率的に捉えている。
この設計原則で導かれた新しい改良された3Dポイントのクラウドバックボーンを提案する。
冗長な畳み込み層を捨てる際の空間配置情報の損失を回避するため,新しい3次元位置符号化であるPointROPEを導入する。
結果の LitePT モデルは、パラメータの少ない$3.6\times と、より高速な$2\times と、最先端の Point Transformer V3 よりも2\times より少ないメモリを使用する。
コードとモデルは、https://github.com/prs-eth/LitePT.comで入手できる。
関連論文リスト
- PointCNN++: Performant Convolution on Native Points [25.82514121801553]
既存の3Dポイントクラウドデータの畳み込み学習方法は、2つのパラダイムに分けられる。
点ベースの手法は幾何精度を保っているが、しばしば性能上の課題に直面している。
ボクセル法は幾何学的忠実度を犠牲にして量子化することで高い効率を達成する。
我々は、この精度と性能のトレードオフを根本的に緩和する新しいアーキテクチャ設計であるPointCNN++を提案する。
論文 参考訳(メタデータ) (2025-11-28T14:35:35Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - DeCoTR: Enhancing Depth Completion with 2D and 3D Attentions [41.55908366474901]
本研究では,2次元と3次元の両方の注意を生かし,高精度な深度補完を実現する手法を提案する。
提案手法であるDeCoTRを,確立した深度補完ベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-18T19:22:55Z) - ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding [105.98609765389895]
トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - Using a Waffle Iron for Automotive Point Cloud Semantic Segmentation [66.6890991207065]
スパース3D畳み込みは、ディープニューラルネットワークを構築するためのデファクトツールとなっている。
本稿では,スパース畳み込みを必要とせず,最先端の手法に到達できる方法を提案する。
このような性能のレベルは、大規模かつ高性能な3D知覚に相応しいツールに依存して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-01-24T16:10:08Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Deep Point Cloud Reconstruction [74.694733918351]
3Dスキャンから得られる点雲は、しばしばスパース、ノイズ、不規則である。
これらの問題に対処するため、最近の研究は別々に行われ、不正確な点雲を密度化、復調し、完全な不正確な点雲を観測している。
本研究では,1) 初期密度化とデノナイズのための3次元スパース集積時間ガラスネットワーク,2) 離散ボクセルを3Dポイントに変換するトランスフォーマーによる改良,の2段階からなる深部点雲再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T07:53:28Z) - FatNet: A Feature-attentive Network for 3D Point Cloud Processing [1.502579291513768]
本稿では,グローバルポイントベースの機能とエッジベースの機能を組み合わせた,新たな機能指向ニューラルネットワーク層であるfat layerを提案する。
当社のアーキテクチャは,ModelNet40データセットで示すように,ポイントクラウド分類のタスクにおける最先端の成果を達成する。
論文 参考訳(メタデータ) (2021-04-07T23:13:56Z) - GRNet: Gridding Residual Network for Dense Point Cloud Completion [54.43648460932248]
完全な3Dポイントクラウドを不完全なクラウドから推定することは、多くのビジョンやロボティクスアプリケーションにおいて重要な問題である。
本稿では,ポイントクラウド補完のための新しいGridding Residual Network(GRNet)を提案する。
実験結果から,提案したGRNetはShapeNet,Completion3D,KITTIベンチマークの最先端手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-06-06T02:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。