論文の概要: How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need?
- arxiv url: http://arxiv.org/abs/2511.05449v1
- Date: Fri, 07 Nov 2025 17:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.849938
- Title: How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need?
- Title(参考訳): 3Dポイント・クラウド・トランスフォーマー・アーキテクチャに必要なトークンはいくつあるか?
- Authors: Tuan Anh Tran, Duy M. H. Nguyen, Hoai-Chau Tran, Michael Barz, Khoa D. Doan, Roger Wattenhofer, Ngo Anh Vien, Mathias Niepert, Daniel Sonntag, Paul Swoboda,
- Abstract要約: トークンは極めて冗長であり、実質的な非効率性をもたらすことを示す。
本稿では,最大90~95%のトークン数を削減できるグローバルなグラフトークンマージ手法であるgitmerge3Dを紹介する。
この研究は、大規模な3Dトランスフォーマーモデルの冗長性を初めて評価し、より効率的な3D基盤アーキテクチャの開発に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 56.09721366421187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in 3D point cloud transformers have led to state-of-the-art results in tasks such as semantic segmentation and reconstruction. However, these models typically rely on dense token representations, incurring high computational and memory costs during training and inference. In this work, we present the finding that tokens are remarkably redundant, leading to substantial inefficiency. We introduce gitmerge3D, a globally informed graph token merging method that can reduce the token count by up to 90-95% while maintaining competitive performance. This finding challenges the prevailing assumption that more tokens inherently yield better performance and highlights that many current models are over-tokenized and under-optimized for scalability. We validate our method across multiple 3D vision tasks and show consistent improvements in computational efficiency. This work is the first to assess redundancy in large-scale 3D transformer models, providing insights into the development of more efficient 3D foundation architectures. Our code and checkpoints are publicly available at https://gitmerge3d.github.io
- Abstract(参考訳): 3Dポイント・クラウド・トランスフォーマーの最近の進歩は、セマンティックセグメンテーションや再構成といったタスクにおいて最先端の結果をもたらしている。
しかし、これらのモデルは一般に密度の高いトークン表現に依存し、訓練と推論の間に高い計算コストとメモリコストを発生させる。
本研究では,トークンが著しく冗長であることを示す。
本稿では,競争性能を維持しつつ,最大90~95%のトークン数を削減できるグローバルなグラフトークンマージ手法であるgitmerge3Dを紹介する。
この発見は、より多くのトークンが本質的により良いパフォーマンスをもたらすという一般的な仮定に挑戦し、多くの現在のモデルがスケーラビリティのために過度に自動化され、過度に最適化されていることを強調します。
我々は,複数の3次元視覚タスクにまたがる手法の有効性を検証し,計算効率を一貫した改善を示す。
この研究は、大規模な3Dトランスフォーマーモデルの冗長性を初めて評価し、より効率的な3D基盤アーキテクチャの開発に関する洞察を提供する。
私たちのコードとチェックポイントはhttps://gitmerge3d.github.ioで公開されています。
関連論文リスト
- H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers [124.11648300910444]
Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。
提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-09-08T17:59:59Z) - Fast3D: Accelerating 3D Multi-modal Large Language Models for Efficient 3D Scene Understanding [24.964149224068027]
我々は,3D MLLM のためのプラグ&プレイ型ビジュアルトークン解析フレームワークである Fast3D を提案する。
グローバルアテンション予測(GAP)は,目標モデルのグローバルアテンション分布を予測し,トークンの効果的な重要度推定を可能にする。
SAPは、注意に基づく複雑性評価を通じて動的トークン予算を導入し、レイヤーワイドプルーニング比率を自動的に調整する。
論文 参考訳(メタデータ) (2025-07-12T16:29:02Z) - Pts3D-LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models [9.658828841170472]
本研究は,3次元トークン構造に関する厳密な研究であり,映像ベースおよび点ベース表現を体系的に比較する。
本稿では,ソナタで事前学習したポイントトランスフォーマーV3エンコーダの3Dポイントクラウド機能を組み込むことで,視覚トークンを充実させる手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T02:35:26Z) - Principles of Visual Tokens for Efficient Video Understanding [36.05950369461622]
少人数のトークンを効果的に選択できる軽量ビデオモデルLITEを提案する。
LITEはデータセットやその他のタスクに対して,再トレーニングを必要とせずに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-11-20T14:09:47Z) - Efficient Point Transformer with Dynamic Token Aggregating for LiDAR Point Cloud Processing [19.73918716354272]
LiDARポイントクラウド処理と解析は、3Dトランスの開発によって大きな進歩を遂げた。
既存の3Dトランスフォーマー法は通常、計算コストが高く、大きな注意マップと冗長な注意マップのために非効率である。
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Not All Tokens Are Equal: Human-centric Visual Analysis via Token
Clustering Transformer [91.49837514935051]
我々はToken Clustering Transformer(TCFormer)と呼ばれる新しいビジョントランスを提案する。
TCTCerはトークンをプログレッシブクラスタリングによってマージし、トークンはフレキシブルな形状とサイズで異なる場所からマージすることができる。
実験によると、TCFormerは人間中心のさまざまなタスクやデータセットにおいて、一貫してその能力を上回っている。
論文 参考訳(メタデータ) (2022-04-19T05:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。