論文の概要: Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers
- arxiv url: http://arxiv.org/abs/2605.23892v1
- Date: Fri, 22 May 2026 17:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.458984
- Title: Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers
- Title(参考訳): Good Token Hunting:ビジュアル幾何学変換器のためのHitchhiker's Guide to Token Selection
- Authors: Shuhong Zheng, Michael Oechsle, Erik Sandström, Marie-Julie Rakotosaona, Federico Tombari, Igor Gilitschenski,
- Abstract要約: 視覚幾何学変換器は多視点3D再構成のための強力なアーキテクチャである。
それらの計算コストは、これらのモデル内のグローバルアテンション層によって入力シーケンスの長さが2倍に増加する。
各クエリがグローバルな注意を払って対話するキー/バリュートークンの数を制限するという、シンプルながら一般的な戦略でこの問題に対処する。
当社のアプローチは,既存のソリューションと比較して,速度精度のトレードオフが優れている。
- 参考スコア(独自算出の注目度): 58.582630781164305
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quadratically with the input sequence length due to the global attention layers inside these models. This limits both their scalability and efficiency. In this work, we address this challenge with a simple yet general strategy: restricting the number of key/value tokens that each query interacts with during global attention. To achieve effective token selection, we introduce a two-stage framework. First, an inter-frame selection step operates at the frame level to identify frames that should be preserved. Second, an intra-frame selection step further discards more redundant tokens within the selected frames. Our analysis highlights the advantage of a diversity-based strategy for inter-frame selection, which ensures broad coverage of the scene. For intra-frame selection, we show that layer-aware sparsification is necessary, with the selection process guided by the entropy of the global attention pattern. Our approach offers a superior speed-accuracy trade-off compared to existing solutions. Extensive experiments show that it accelerates visual geometry transformers by over 85% for scenes with 500 images while maintaining, or even improving, baseline performance, which hints that how our token selection strategy can play a crucial role in future applications of visual geometry transformers. Our project website is available at https://zsh2000.github.io/good-token-hunting.github.io.
- Abstract(参考訳): 視覚幾何学変換器は多視点3D再構成のための強力なアーキテクチャとなり、フィードフォワード方式で複数の3D属性の同時予測が可能になった。
しかし、それらの計算コストは、これらのモデル内のグローバルアテンション層によって入力シーケンスの長さが2倍に増加する。
これによりスケーラビリティと効率の両方が制限される。
本研究では,この課題に対して,グローバルな注目の下で各クエリが対話するキー/バリュートークンの数を制限するという,シンプルながら一般的な戦略で対処する。
トークン選択を効果的に行うために,2段階のフレームワークを導入する。
まず、フレーム間選択ステップがフレームレベルで動作し、保存すべきフレームを特定する。
第2に、フレーム内選択ステップは、選択されたフレーム内でさらに冗長なトークンを破棄する。
本分析は,フレーム間選択における多様性に基づく戦略の利点を強調した。
フレーム内選択には,グローバルアテンションパターンのエントロピーによって導かれる選択プロセスを用いて,レイヤ認識のスペーシフィケーションが必要であることを示す。
当社のアプローチは,既存のソリューションと比較して,速度精度のトレードオフが優れている。
大規模な実験では、500枚以上の画像を持つシーンでは85%以上の速度でビジュアルジオメトリトランスフォーマーを加速し、ベースラインのパフォーマンスを維持したり改善したりすることで、私たちのトークン選択戦略が将来のビジュアルジオメトリトランスフォーマーの応用において重要な役割を担っていることを示唆している。
プロジェクトのWebサイトはhttps://zsh2000.github.io/good-token-hunting.github.ioで公開されている。
関連論文リスト
- H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers [124.11648300910444]
Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。
提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-09-08T17:59:59Z) - FASTer: Focal Token Acquiring-and-Scaling Transformer for Long-term 3D Object Detection [9.291995455336929]
我々はFAST(Focal Token Acquring-and-Scaling Transformer)を提案する。
FASTerは、適応的で軽量な方法でトークンシーケンスを凝縮する。
性能と効率の両方で、他の最先端の検出器よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-28T03:15:33Z) - Long-Range Grouping Transformer for Multi-View 3D Reconstruction [9.2709012704338]
配当原理に基づくLGA(Long-range Grouping attention)を提案する。
ビュー間特徴を接続する効率的かつ効率的なエンコーダを確立することができる。
プログレッシブ・アップサンプリング・デコーダは比較的高解像度のボクセル生成のために設計された。
論文 参考訳(メタデータ) (2023-08-17T01:34:59Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Efficient Video Transformers with Spatial-Temporal Token Selection [68.27784654734396]
入力ビデオサンプルに条件付き時間的・空間的両方のトークンを動的に選択するトークン選択フレームワークSTTSを提案する。
我々のフレームワークは、20%の計算を必要としながら、同様の結果を得る。
論文 参考訳(メタデータ) (2021-11-23T00:35:58Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。