論文の概要: PaceVGGT: Pre-Alternating-Attention Token Pruning for Visual Geometry Transformers
- arxiv url: http://arxiv.org/abs/2605.08371v1
- Date: Fri, 08 May 2026 18:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.59169
- Title: PaceVGGT: Pre-Alternating-Attention Token Pruning for Visual Geometry Transformers
- Title(参考訳): PaceVGGT:ビジュアル幾何変換器のための事前交換型トーケンプルーニング
- Authors: Haotang Li, Zhenyu Qi, Shaohan Henry Wang, Kebin Peng, Zi Wang, Qing Guo, Sen He, Huanrui Yang,
- Abstract要約: Visual Geometry Transformer (VGGT)は、複数の3Dタスクのための強力なフィードフォワードモデルであるが、Alternating-Attentionスタックはトークン数全体の2倍にスケールする。
我々は,凍結したVGGTの最初のAブロックの前にDINOパッチトークンをプルークする,AA前トークンプルーニングフレームワークPaceVGGTを紹介する。
- 参考スコア(独自算出の注目度): 15.328611025119573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Geometry Transformer (VGGT) is a strong feed-forward model for multiple 3D tasks, but its Alternating-Attention (AA) stack scales quadratically in the total token count, making long clips expensive. Existing token-reduction accelerators operate inside AA, leaving the patch grid that enters AA uncompressed. We introduce PaceVGGT, a pre-AA token pruning framework that prunes DINO patch tokens before the first AA block of a frozen VGGT. PaceVGGT trains a lightweight Token Scorer that estimates per-token importance from DINO features. The scorer is first distilled against an AA-internal attention target from the unpruned backbone, then refined under downstream camera, depth, and point-map losses. A per-frame keep budget fixes the backbone-visible sequence length, while an importance-adaptive merge/prune assignment preserves residual content from high-saliency frames under a fixed total merge budget. A Feature-guided Restoration module reconstructs the dense spatial grid required by the prediction heads. On ScanNet-50 and 7-Scenes, PaceVGGT remains on the reconstruction quality--latency frontier while reducing inference latency. On ScanNet-50, it reduces latency by \(5.1\times\) over unmodified VGGT at \(N=300\) and \(1.47\times\) over LiteVGGT at \(N=1000\). These results identify pre-AA pruning as a viable acceleration route for frozen VGGT-style geometry transformers.
- Abstract(参考訳): Visual Geometry Transformer (VGGT)は、複数の3Dタスクのための強力なフィードフォワードモデルであるが、Alternating-Attention (AA)スタックはトークン数で2倍にスケールし、長いクリップは高価である。
既存のトークン還元アクセラレータはAA内で動作し、AAに入るパッチグリッドは非圧縮のままである。
我々は,凍結したVGGTの最初のAブロックの前にDINOパッチトークンをプルークする,AA前トークンプルーニングフレームワークPaceVGGTを紹介する。
PaceVGGTは軽量のToken Scorerを訓練し、DINOの機能からトークン毎の重要性を推定する。
スコアラーは、最初に未成熟のバックボーンからAA内部の注目目標に対して蒸留され、その後下流のカメラ、深さ、ポイントマップの損失で精製される。
フレーム単位の保存予算は、バックボーン可視のシーケンス長を補正する一方、重要適応的なマージ/プルー割り当ては、固定された総マージ予算の下で、高可用性フレームからの残留コンテンツを保存する。
特徴誘導再生モジュールは、予測ヘッドが必要とする密集空間格子を再構成する。
ScanNet-50と7-Scenesでは、PaceVGGTは推論レイテンシを低減しつつ、再構築品質-レイテンシフロンティアに留まっている。
ScanNet-50では、未修正のVGGTを \(N=300\) で、LiteVGGTを \(N=1000\) で1.47\times\) で、遅延を \(5.1\times\) で減らす。
これらの結果から, 凍結型VGGT型幾何変圧器において, プレAAプルーニングが実現可能な加速経路であることがわかった。
関連論文リスト
- S-VGGT: Structure-Aware Subscene Decomposition for Scalable 3D Foundation Models [15.408916900664783]
フィードフォワード3Dファンデーションモデルは、グローバルな注目によって導入された二次計算コストという、大きな課題に直面している。
構造フレームレベルでの冗長性に対処する新しいアプローチである textbfS-VGGT を導入する。
S-VGGTは完全にトークンレベルの加速法であり、複雑なスピードアップにシームレスに組み合わせることができる。
論文 参考訳(メタデータ) (2026-03-18T11:42:55Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks [87.16809558673403]
スパイキングニューラルネットワーク(SNN)は離散スパイクで計算し、時間構造を利用する。
イベント駆動SNNにおけるスパイク数と振幅を保存しながら、既存のスパイクを繰り返すタイミングのみの敵について検討する。
論文 参考訳(メタデータ) (2026-02-03T09:06:53Z) - SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes [30.52500975808177]
大規模シーンにおける3次元再構成は3次元知覚の基本的な課題である。
既存の手法では、速度を優先し、低品質な結果を生成するか、推論時間の遅いコストで高品質な再構築を実現する。
高品質な高密度3次元再構成を保ちながら、推論時間を大幅に短縮するトレーニング不要なSwiftVGGTを提案する。
論文 参考訳(メタデータ) (2025-11-23T05:03:49Z) - TARG: Training-Free Adaptive Retrieval Gating for Efficient RAG [46.122203287541005]
トレーニングフリーのAdaptive Retrieval Gating (TARG) は、ベースモデルからの短い非遅延ドラフトのみを使用していつ取得するかを決定する、単発のポリシーである。
NQ-Open、TriviaQA、PopQAでは、TARGは一貫して精度と効率のフロンティアをシフトさせる。
論文 参考訳(メタデータ) (2025-11-12T23:09:52Z) - FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery [6.902247657565531]
本稿では,空中シーンに適したリアルタイム検出変換器であるHEDS-DETRを紹介する。
まず,高周波数拡張セマンティックスネットワーク(HFESNet)のバックボーンを提案する。
第2に、高分解能特徴を効率的に融合させることにより、情報損失に対処する。
第三に、2つの相乗的成分を用いてデコーダの安定性と位置決め精度を向上させる。
論文 参考訳(メタデータ) (2025-07-01T14:56:56Z) - Stealthy Patch-Wise Backdoor Attack in 3D Point Cloud via Curvature Awareness [52.780853311462636]
バックドア攻撃はディープニューラルネットワーク(DNN)に深刻な脅威をもたらす
既存の3Dポイントのクラウドバックドア攻撃は、サンプルワイドなグローバルな修正に依存している。
我々は,3Dポイントクラウド用のパッチワイドバックドアアタックフレームワークであるStealthy Patch-Wise Backdoor Attack (SPBA)を提案する。
論文 参考訳(メタデータ) (2025-03-12T12:30:59Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。