論文の概要: AVGGT: Rethinking Global Attention for Accelerating VGGT
- arxiv url: http://arxiv.org/abs/2512.02541v1
- Date: Tue, 02 Dec 2025 09:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.795588
- Title: AVGGT: Rethinking Global Attention for Accelerating VGGT
- Title(参考訳): AVGGT:VGGTの加速に向けた世界的意識の再考
- Authors: Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang,
- Abstract要約: VGGTと3ドルは、強力なマルチビュー3Dパフォーマンスを示しているが、グローバルな自己注意に大きく依存しているため、計算コストが高い。
我々は、VGGTにおけるグローバルアテンションモジュールの詳細な調査を行い、それらの役割をよりよく理解するために3ドルを支払った。
本研究では,(1)初期のグローバルレイヤをフレームアテンションに変換し,(2)グローバルアテンションをサブサンプリングする2段階アクセラレーション方式を提案する。
- 参考スコア(独自算出の注目度): 16.56994879750844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Since DUSt3R, models such as VGGT and $π^3$ have shown strong multi-view 3D performance, but their heavy reliance on global self-attention results in high computational cost. Existing sparse-attention variants offer partial speedups, yet lack a systematic analysis of how global attention contributes to multi-view reasoning. In this paper, we first conduct an in-depth investigation of the global attention modules in VGGT and $π^3$ to better understand their roles. Our analysis reveals a clear division of roles in the alternating global-frame architecture: early global layers do not form meaningful correspondences, middle layers perform cross-view alignment, and last layers provide only minor refinements. Guided by these findings, we propose a training-free two-step acceleration scheme: (1) converting early global layers into frame attention, and (2) subsampling global attention by subsampling K/V over patch tokens with diagonal preservation and a mean-fill component. We instantiate this strategy on VGGT and $π^3$ and evaluate across standard pose and point-map benchmarks. Our method achieves up to $8$-$10\times$ speedup in inference time while matching or slightly improving the accuracy of the original models, and remains robust even in extremely dense multi-view settings where prior sparse-attention baselines fail.
- Abstract(参考訳): DUSt3R 以降、VGGT や $π^3$ などのモデルでは、多視点3D の性能は高いが、グローバルな自己注意に依存しているため、計算コストが高い。
既存のスパースアテンション変種は部分的なスピードアップを提供するが、グローバルアテンションがマルチビュー推論にどのように貢献するかの体系的な分析を欠いている。
本稿では、まず、VGGTにおけるグローバルアテンションモジュールと、それらの役割をよりよく理解するために、π^3$の詳細な調査を行う。
初期のグローバルレイヤは意味のある対応を形成せず、中層はクロスビューアライメントを行い、最後のレイヤは微妙な改善のみを提供します。
そこで本研究では,(1) 初期のグローバルレイヤをフレームアテンションに変換すること,(2) K/V を対角保存と平均充填成分のパッチトークンにサブサンプリングすることで,グローバルアテンションをサブサンプリングすること,という2段階のトレーニングフリーな促進手法を提案する。
VGGTと$π^3$でこの戦略をインスタンス化し、標準ポーズとポイントマップのベンチマークで評価する。
提案手法は,従来のモデルとのマッチングや精度をわずかに向上しながら,最大8ドルから10ドル程度の速度アップを達成し,事前のスパースアテンションベースラインが失敗する非常に高密度なマルチビュー設定でも頑健である。
関連論文リスト
- From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning [72.4876727619987]
推論性能は視覚注意スコア(VAS)と強く相関していることがわかった。
その因果的役割を検証するため、推論中の注意配分を直接調整する訓練不要な介入を設計する。
本研究では、視覚的アンコールデータ合成、注意誘導目的、視覚的アンコール報酬形成を統合した総合的なコールドスタートフレームワークである注意誘導視覚アンコールとリフレクションを提案する。
論文 参考訳(メタデータ) (2026-03-04T08:22:27Z) - Global-Aware Edge Prioritization for Pose Graph Initialization [58.77851776918465]
画像がノードとして機能し、エッジが相対的なポーズをエンコードするStructure-from-Motion(SfM)のコアコンポーネントである。
幾何的検証は高価であるため、SfMパイプラインはポーズグラフを候補エッジのスパース集合に制限する。
本稿では、この制限をエッジ優先順位付けの概念によって解決し、SfMの実用性によって候補エッジをランク付けする。
提案手法は,(1)一貫したエッジ信頼性を予測するために,SfMから指導を受けたGNN,(2)これらのランクで案内されるマルチミニマルスパンニングツリーに基づくポーズグラフ構築,(3)弱い領域を補強する接続性を考慮したスコア変調,の3つの構成要素を有する。
論文 参考訳(メタデータ) (2026-02-25T14:44:53Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - Deep Global Clustering for Hyperspectral Image Segmentation: Concepts, Applications, and Open Challenges [1.9116784879310027]
ハイパースペクトルイメージング(HSI)解析は、利用可能なメモリを超える大量のデータ量のために計算ボトルネックに直面している。
本稿では,メモリ効率の高いHSIセグメンテーションの概念フレームワークであるDeep Global Clustering (DGC)について述べる。
DGCは、重複するリージョンを持つ小さなパッチを使用して一貫性を強制し、コンシューマハードウェア上で30分未満のトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-30T12:10:43Z) - Reloc-VGGT: Visual Re-localization with Geometry Grounded Transformer [40.778996326009185]
初期核融合機構による多視点空間統合を行う最初のビジュアルローカライゼーションフレームワークを提案する。
我々のフレームワークはVGGTのバックボーン上に構築されており、多視点3D形状を符号化している。
本研究では,グローバルアテンションの2次複雑さを回避し,計算コストを削減する新しいスパースマスクアテンション戦略を提案する。
論文 参考訳(メタデータ) (2025-12-26T06:12:17Z) - What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - Faster VGGT with Block-Sparse Global Attention [11.473406315508647]
本稿では,高度に最適化されたブロックスパースカーネルに基づくグローバルアテンション操作の置き換えを提案する。
バックボーンの再トレーニングは不要で、VGGTと$pi3$の両方に拡張され、大きなイメージコレクションをサポートします。
論文 参考訳(メタデータ) (2025-09-08T18:16:09Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing [12.409365458889082]
AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-10T08:38:29Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging [48.99717153937717]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。