論文の概要: Faster VGGT with Block-Sparse Global Attention
- arxiv url: http://arxiv.org/abs/2509.07120v1
- Date: Mon, 08 Sep 2025 18:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.075184
- Title: Faster VGGT with Block-Sparse Global Attention
- Title(参考訳): ブロックスパースグローバルアテンションによる高速VGGT
- Authors: Chung-Shien Brian Wang, Christian Schmidt, Jens Piekenbrinck, Bastian Leibe,
- Abstract要約: 本稿では,高度に最適化されたブロックスパースカーネルに基づくグローバルアテンション操作の置き換えを提案する。
バックボーンの再トレーニングは不要で、VGGTと$pi3$の両方に拡張され、大きなイメージコレクションをサポートします。
- 参考スコア(独自算出の注目度): 11.473406315508647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient and accurate feed-forward multi-view reconstruction has long been an important task in computer vision. Recent transformer-based models like VGGT and $\pi^3$ have achieved impressive results with simple architectures, yet they face an inherent runtime bottleneck, due to the quadratic complexity of the global attention layers, that limits the scalability to large image sets. In this paper, we empirically analyze the global attention matrix of these models and observe that probability mass concentrates on a small subset of patch-patch interactions that correspond to cross-view geometric matches. Motivated by the structured attention and inspired by recent advancement in large language models, we propose a replacement for the dense global attention operation based on highly optimized block-sparse kernels, yielding up to $4\times$ faster inference with comparable task performance. Our retrofit requires no retraining of the backbone, extends to both VGGT and $\pi^3$, and supports large image collections. Evaluations on a comprehensive suite of multi-view benchmarks demonstrate the effectiveness of our approach.
- Abstract(参考訳): 効率的かつ正確なフィードフォワード・マルチビュー再構成は、コンピュータビジョンにおいて長い間重要な課題であった。
VGGTや$\pi^3$といった最近のトランスフォーマーベースのモデルは、単純なアーキテクチャで素晴らしい成果を上げていますが、グローバルアテンション層の2次複雑さのため、大きなイメージセットにスケーラビリティが制限されるため、固有のランタイムボトルネックに直面しています。
本稿では,これらのモデルのグローバルアテンション行列を実験的に解析し,確率質量が,クロスビュー幾何学的マッチングに対応するパッチ・パッチ相互作用の小さなサブセットに集中していることを確認する。
構造化された注目に触発され,近年の大規模言語モデルの発展に触発されて,高度に最適化されたブロックスパースカーネルに基づくグローバルアテンション操作の置き換えを提案する。
バックボーンの再トレーニングは不要で、VGGTと$\pi^3$の両方に拡張され、大きなイメージコレクションをサポートする。
総合的なマルチビューベンチマークによる評価は,提案手法の有効性を実証する。
関連論文リスト
- Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.5497663232622965]
iANETは、長距離依存のモデリングを改善するために設計された、効率的なハイブリッド視覚バックボーンである。
iiANETの中核となる革新は、iiABlockである。これは、グローバルなr-MHSA(Multi-Head Self-Attention)とパリルルにおける畳み込みレイヤを内部で記述する、統一されたビルディングブロックである。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z) - SSGA-Net: Stepwise Spatial Global-local Aggregation Networks for for Autonomous Driving [27.731481134782577]
現在のモデルは、通常、タスクヘッドのオブジェクト表現を強化するために隣のフレームから特徴を集約します。
これらの手法は将来のフレームからの情報に依存し、高い計算複雑性に悩まされる。
本稿では,これらの問題を解決するために,段階的に空間的局所集約ネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-29T08:12:51Z) - AnchorGT: Efficient and Flexible Attention Architecture for Scalable Graph Transformers [35.04198789195943]
グラフ変換器(GT)のための新しいアテンションアーキテクチャであるAnchorGTを提案する。
アンカーベースGNNにインスパイアされ、構造的に重要な$k$支配ノードセットをアンカーとして採用し、個々のノードとアンカーの関係に着目したアテンションメカニズムを設計する。
直感的な設計により、AnchorGTは様々なGTモデルのアテンションモジュールを異なるネットワークアーキテクチャで簡単に置き換えることができる。
論文 参考訳(メタデータ) (2024-05-06T13:53:09Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - Efficient Multi-View Graph Clustering with Local and Global Structure
Preservation [59.49018175496533]
局所・グローバル構造保存を用いた効率的なマルチビューグラフクラスタリング(EMVGC-LG)という,アンカーベースのマルチビューグラフクラスタリングフレームワークを提案する。
具体的には、EMVGC-LGがクラスタリング品質を向上させるために、アンカー構築とグラフ学習を共同で最適化する。
さらに、EMVGC-LGはサンプル数に関する既存のAMVGCメソッドの線形複雑性を継承する。
論文 参考訳(メタデータ) (2023-08-31T12:12:30Z) - Simple Contrastive Graph Clustering [41.396185271303956]
既存の手法を改善するための単純なコントラストグラフクラスタリング(SCGC)アルゴリズムを提案する。
我々のアルゴリズムは、最近のコントラストの高いディープクラスタリング競合よりも、平均して7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-05-11T06:45:19Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Video Self-Stitching Graph Network for Temporal Action Localization [54.1254121061467]
ビデオセルフスティッチグラフネットワーク(VSGN)と呼ばれるマルチレベルクロススケールソリューションを提案する。
VSGNにはビデオセルフスティッチ(VSS)とクロススケールグラフピラミッドネットワーク(xGPN)という2つの重要なコンポーネントがあります。
我々のVSGNは、特徴表現を強化するだけでなく、短いアクションとより短いトレーニングサンプルのためのよりポジティブなアンカーを生成する。
論文 参考訳(メタデータ) (2020-11-30T07:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。