論文の概要: AVGGT: Rethinking Global Attention for Accelerating VGGT
- arxiv url: http://arxiv.org/abs/2512.02541v1
- Date: Tue, 02 Dec 2025 09:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.795588
- Title: AVGGT: Rethinking Global Attention for Accelerating VGGT
- Title(参考訳): AVGGT:VGGTの加速に向けた世界的意識の再考
- Authors: Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang,
- Abstract要約: VGGTと3ドルは、強力なマルチビュー3Dパフォーマンスを示しているが、グローバルな自己注意に大きく依存しているため、計算コストが高い。
我々は、VGGTにおけるグローバルアテンションモジュールの詳細な調査を行い、それらの役割をよりよく理解するために3ドルを支払った。
本研究では,(1)初期のグローバルレイヤをフレームアテンションに変換し,(2)グローバルアテンションをサブサンプリングする2段階アクセラレーション方式を提案する。
- 参考スコア(独自算出の注目度): 16.56994879750844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Since DUSt3R, models such as VGGT and $π^3$ have shown strong multi-view 3D performance, but their heavy reliance on global self-attention results in high computational cost. Existing sparse-attention variants offer partial speedups, yet lack a systematic analysis of how global attention contributes to multi-view reasoning. In this paper, we first conduct an in-depth investigation of the global attention modules in VGGT and $π^3$ to better understand their roles. Our analysis reveals a clear division of roles in the alternating global-frame architecture: early global layers do not form meaningful correspondences, middle layers perform cross-view alignment, and last layers provide only minor refinements. Guided by these findings, we propose a training-free two-step acceleration scheme: (1) converting early global layers into frame attention, and (2) subsampling global attention by subsampling K/V over patch tokens with diagonal preservation and a mean-fill component. We instantiate this strategy on VGGT and $π^3$ and evaluate across standard pose and point-map benchmarks. Our method achieves up to $8$-$10\times$ speedup in inference time while matching or slightly improving the accuracy of the original models, and remains robust even in extremely dense multi-view settings where prior sparse-attention baselines fail.
- Abstract(参考訳): DUSt3R 以降、VGGT や $π^3$ などのモデルでは、多視点3D の性能は高いが、グローバルな自己注意に依存しているため、計算コストが高い。
既存のスパースアテンション変種は部分的なスピードアップを提供するが、グローバルアテンションがマルチビュー推論にどのように貢献するかの体系的な分析を欠いている。
本稿では、まず、VGGTにおけるグローバルアテンションモジュールと、それらの役割をよりよく理解するために、π^3$の詳細な調査を行う。
初期のグローバルレイヤは意味のある対応を形成せず、中層はクロスビューアライメントを行い、最後のレイヤは微妙な改善のみを提供します。
そこで本研究では,(1) 初期のグローバルレイヤをフレームアテンションに変換すること,(2) K/V を対角保存と平均充填成分のパッチトークンにサブサンプリングすることで,グローバルアテンションをサブサンプリングすること,という2段階のトレーニングフリーな促進手法を提案する。
VGGTと$π^3$でこの戦略をインスタンス化し、標準ポーズとポイントマップのベンチマークで評価する。
提案手法は,従来のモデルとのマッチングや精度をわずかに向上しながら,最大8ドルから10ドル程度の速度アップを達成し,事前のスパースアテンションベースラインが失敗する非常に高密度なマルチビュー設定でも頑健である。
関連論文リスト
- Faster VGGT with Block-Sparse Global Attention [11.473406315508647]
本稿では,高度に最適化されたブロックスパースカーネルに基づくグローバルアテンション操作の置き換えを提案する。
バックボーンの再トレーニングは不要で、VGGTと$pi3$の両方に拡張され、大きなイメージコレクションをサポートします。
論文 参考訳(メタデータ) (2025-09-08T18:16:09Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing [12.409365458889082]
AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-10T08:38:29Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging [48.99717153937717]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。