論文の概要: TurboVGGT: Fast Visual Geometry Reconstruction with Adaptive Alternating Attention
- arxiv url: http://arxiv.org/abs/2605.14315v1
- Date: Thu, 14 May 2026 03:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.601737
- Title: TurboVGGT: Fast Visual Geometry Reconstruction with Adaptive Alternating Attention
- Title(参考訳): TurboVGGT:適応的交互注意による高速視線再構成
- Authors: David Huang, Guile Wu, Chengjie Huang, Bingbing Liu, Dongfeng Bai,
- Abstract要約: TurboVGGTは、高速なマルチビュー3D再構成のために適応的注目を交互に行う効率的な視覚幾何学変換器を採用している。
適応的疎大なグローバルな注目の中で、TurboVGGTはグローバル幾何モデリングのための様々な空間レベルを持つ代表トークンを適応的に学習する。
複数の3次元再構成ベンチマーク実験により,TurboVGGTは高速な多視点再構成を実現し,競争力のある再構成品質を維持した。
- 参考スコア(独自算出の注目度): 21.29668311125256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent feed-forward 3D reconstruction methods, such as visual geometry transformers, have substantially advanced the traditional per-scene optimization paradigm by enabling effective multi-view reconstruction in a single forward pass. However, most existing methods struggle to achieve a balance between reconstruction quality and computational efficiency, which limits their scalability and efficiency. Although some efficient visual geometry transformers have recently emerged, they typically use the same sparsity ratio across layers and frames and lack mechanisms to adaptively learn representative tokens to capture global relationships, leading to suboptimal performance. In this work, we propose TurboVGGT, a novel approach that employs an efficient visual geometry transformer with adaptive alternating attention for fast multi-view 3D reconstruction. Specifically, TurboVGGT employs an end-to-end trainable framework with adaptive sparse global attention guided by adaptive sparsity selection to capture global relationships across frames and frame attention to aggregate local details within each frame. In the adaptive sparse global attention, TurboVGGT adaptively learns representative tokens with varying sparsity levels for global geometry modeling, considering that token importance varies across frames, attention layers operate tokens at different levels of abstraction, and global dependencies rely on structurally informative regions. Extensive experiments on multiple 3D reconstruction benchmarks demonstrate that TurboVGGT achieves fast multi-view reconstruction while maintaining competitive reconstruction quality compared with state-of-the-art methods. Project page: https://turbovggt.github.io/.
- Abstract(参考訳): 視覚幾何学変換器などの最近のフィードフォワード3次元再構成手法は,単一の前方通過で効果的に多視点再構成を行うことにより,従来のシーンごとの最適化パラダイムを大幅に進歩させてきた。
しかし、既存のほとんどの手法は、再構成品質と計算効率のバランスを保ち、スケーラビリティと効率を制限している。
一部の効率的な視覚幾何学変換器は近年出現しているが、一般的には層やフレーム間で同じ空間比を用いており、グローバルな関係を捉えるために代表トークンを適応的に学習するメカニズムが欠如しており、最適以下の性能をもたらす。
本稿では,高速なマルチビュー3D再構成を実現するために,適応的注目を交互に行う高効率なビジュアル幾何変換器を用いたTurboVGGTを提案する。
特にTurboVGTでは,フレーム間のグローバルな関係を捉え,各フレーム内の局所的な詳細を集約するために,適応空間選択によって誘導される,適応的疎大なグローバルアテンションを備えたエンドツーエンドのトレーニング可能なフレームワークを採用している。
適応的疎大なグローバルな注目の中で、TurboVGGTは、フレーム毎にトークンの重要度が異なり、注目層が異なる抽象レベルでトークンを運用し、グローバル依存が構造的に情報的領域に依存していることを考慮し、グローバルジオメトリモデリングのための様々な空間レベルの代表トークンを適応的に学習する。
複数の3次元再構成ベンチマークにおいて、TurboVGGTは、最先端の手法と比較して、競争力のある再現品質を維持しつつ、高速な多視点再構成を実現することを示した。
プロジェクトページ: https://turbovggt.github.io/.com
関連論文リスト
- Reloc-VGGT: Visual Re-localization with Geometry Grounded Transformer [40.778996326009185]
初期核融合機構による多視点空間統合を行う最初のビジュアルローカライゼーションフレームワークを提案する。
我々のフレームワークはVGGTのバックボーン上に構築されており、多視点3D形状を符号化している。
本研究では,グローバルアテンションの2次複雑さを回避し,計算コストを削減する新しいスパースマスクアテンション戦略を提案する。
論文 参考訳(メタデータ) (2025-12-26T06:12:17Z) - Rethinking Vision Transformer Depth via Structural Reparameterization [16.12815682992294]
本稿では,訓練期間中に機能する分岐型構造パラメータ化手法を提案する。
提案手法では, 変圧器ブロック内の並列分岐を利用して, 合理化シングルパスモデルに体系的に統合する。
ViT-Tinyに適用した場合、このフレームワークは、ImageNet-1Kの分類精度を維持しながら、元の12層アーキテクチャを6層、4層、もしくは3層に改善する。
論文 参考訳(メタデータ) (2025-11-24T21:28:55Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。