論文の概要: FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention
- arxiv url: http://arxiv.org/abs/2512.01540v1
- Date: Mon, 01 Dec 2025 11:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.817145
- Title: FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention
- Title(参考訳): FlashVGGT: 圧縮記述子アテンションを備えた効率的でスケーラブルなビジュアルジオメトリ変換器
- Authors: Zipeng Wang, Dan Xu,
- Abstract要約: マルチビュー画像からの3D再構成は、コンピュータビジョンにおける中核的な課題である。
最近のフィードフォワード法は、従来のシーンごとの最適化手法に代わる効率的で堅牢な代替手段として現れている。
我々は、ディスクリプタベースのアテンションメカニズムを通じて、このボトルネックに対処する効率的な代替手段であるFlashVGTを紹介します。
- 参考スコア(独自算出の注目度): 11.71939856454585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.
- Abstract(参考訳): マルチビュー画像からの3D再構成は、コンピュータビジョンにおける中核的な課題である。
近年, フィードフォワード法は, 従来のシーンごとの最適化手法に代わる, 効率的かつ堅牢な代替手段として出現している。
その中でも、Visual Geometry Grounding Transformer (VGGT)のような最先端のモデルでは、すべての画像トークンに対する完全な自己アテンションを活用して、グローバルな関係を捉えている。
しかし、このアプローチは、自己注意の二次的な複雑さと、長い画像列で生成される大量のトークンにより、スケーラビリティの低下に悩まされている。
本稿では,このボトルネックに対処する効率的な代替手段として,ディスクリプタベースのアテンション機構を用いたFlashVGGTを紹介する。
すべてのトークンに密集したグローバルな注意を向ける代わりに、FlashVGGTは各フレームの空間情報をディスクリプタトークンのコンパクトなセットに圧縮する。
グローバルアテンションは、全画像トークンとこの小さなディスクリプタセットの間の交差アテンションとして計算され、計算オーバーヘッドを大幅に削減する。
さらに、ディスクリプタのコンパクトさは、キャッシュされたディスクリプタを以前のチャンクから再利用するチャンク再帰メカニズムを通じて、長いシーケンスを網羅したオンライン推論を可能にする。
実験の結果、FlashVGGTはVGGTと競合する再構成精度を達成し、1000枚以上の画像に対してVGGTの9.3%まで推論時間を短縮し、3000枚以上の画像に対して効率よくスケーリングできることがわかった。
私たちのプロジェクトページはhttps://wzpscott.github.io/flashvggt_page/で公開されています。
関連論文リスト
- SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
ビジョントランスフォーマー(ViT)は、イメージパッチ間の複雑なパターンと長距離依存関係をキャプチャするために自己アテンションを活用することで、イメージ分類を再定義している。
ViTsの重要な課題は、階層構造を通じて畳み込みニューラルネットワーク(CNN)に固有のマルチスケールの特徴表現を効率的に組み込むことである。
我々は、CNNのマルチスケール機能、ViTの表現力、グラフ付きパッチ機能を統合し、よりリッチなコンテキスト表現を可能にするスケールアウェアグラフ注意型ViTであるSAG-ViTを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - Long-Range Grouping Transformer for Multi-View 3D Reconstruction [9.2709012704338]
配当原理に基づくLGA(Long-range Grouping attention)を提案する。
ビュー間特徴を接続する効率的かつ効率的なエンコーダを確立することができる。
プログレッシブ・アップサンプリング・デコーダは比較的高解像度のボクセル生成のために設計された。
論文 参考訳(メタデータ) (2023-08-17T01:34:59Z) - Memory transformers for full context and high-resolution 3D Medical
Segmentation [76.93387214103863]
本稿では,この問題を克服するために,Full resolutIoN mEmory (FINE) 変換器を提案する。
FINEの基本的な考え方は、メモリトークンを学習して、フルレンジインタラクションを間接的にモデル化することだ。
BCV画像セグメンテーションデータセットの実験は、最先端のCNNやトランスフォーマーベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-10-11T10:11:05Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。