論文の概要: HTTM: Head-wise Temporal Token Merging for Faster VGGT
- arxiv url: http://arxiv.org/abs/2511.21317v1
- Date: Wed, 26 Nov 2025 12:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.082844
- Title: HTTM: Head-wise Temporal Token Merging for Faster VGGT
- Title(参考訳): HTTM:より高速なVGGTのためのヘッドワイドテンポラルトケマージ
- Authors: Weitian Wang, Lukas Meiner, Rai Shubham, Cecilia De La Parra, Akash Kumar,
- Abstract要約: VGGTは、1回のパスで全てのキー3D属性を直接推論する最初のモデルである。
長いシーケンス入力を持つ大きなシーンの再構築には、大きな遅延ボトルネックが発生する。
本稿では,VGGTの高速化を目的とした訓練不要な3次元トークンマージ手法であるHTTMを提案する。
- 参考スコア(独自算出の注目度): 3.4907933619156606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Visual Geometry Grounded Transformer (VGGT) marks a significant leap forward in 3D scene reconstruction, as it is the first model that directly infers all key 3D attributes (camera poses, depths, and dense geometry) jointly in one pass. However, this joint inference mechanism requires global attention layers that perform all-to-all attention computation on tokens from all views. For reconstruction of large scenes with long-sequence inputs, this causes a significant latency bottleneck. In this paper, we propose head-wise temporal merging (HTTM), a training-free 3D token merging method for accelerating VGGT. Existing merging techniques merge tokens uniformly across different attention heads, resulting in identical tokens in the layers' output, which hinders the model's representational ability. HTTM tackles this problem by merging tokens in multi-head granularity, which preserves the uniqueness of feature tokens after head concatenation. Additionally, this enables HTTM to leverage the spatial locality and temporal correspondence observed at the head level to achieve higher merging ratios with lower merging costs compared to existing methods. Thus, HTTM achieves up to 7x acceleration with negligible performance drops in a GPU-based inference.
- Abstract(参考訳): Visual Geometry Grounded Transformer (VGGT) は、3Dシーンの再構築において大きな前進を図っている。これは、すべての重要な3D属性(カメラのポーズ、深さ、密度幾何学)を直接1回のパスで推論する最初のモデルである。
しかし、この共同推論機構は、すべてのビューからのトークンに対して全対一の注意計算を行うグローバルアテンション層を必要とする。
長いシーケンス入力を持つ大きなシーンの再構築には、大きな遅延ボトルネックが発生する。
本稿では,VGGTの高速化のための訓練不要な3Dトークンマージ手法であるHTTMを提案する。
既存のマージ技術は異なるアテンションヘッドに均一にトークンをマージし、結果としてレイヤの出力に同一のトークンが発生し、モデルの表現能力を阻害する。
HTTMは、頭部結合後の特徴トークンの特異性を保ったマルチヘッド粒度にトークンをマージすることでこの問題に対処する。
さらに、HTTMは、ヘッドレベルで観測される空間的局所性と時間的対応を利用して、既存の方法に比べてマージコストが低いマージ比を高くすることができる。
したがって、HTTMはGPUベースの推論において、無視可能なパフォーマンス低下を伴う最大7倍の加速を達成する。
関連論文リスト
- FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation [14.903360987684483]
高品質なダイナミック・メディカル・ビデオのためのフル次元能動的アテンション・トランスフォーマであるFEATを提案する。
FEAT-Sは、最先端モデルのEndoraのパラメータのわずか23%しか持たないが、同等またはそれ以上の性能を発揮することを示した。
論文 参考訳(メタデータ) (2025-06-05T12:31:02Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation [44.94438766074643]
ピラミッド変分オートエンコーダとカスケードマスク自動回帰変換器を統合したMAR-3Dを提案する。
我々のアーキテクチャは、トレーニング中にランダムマスキングを採用し、推論中にランダムな順序で自動回帰化を行い、自然に3D潜在トークンの無秩序な性質を調節する。
論文 参考訳(メタデータ) (2025-03-26T13:00:51Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。