論文の概要: Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers
- arxiv url: http://arxiv.org/abs/2511.14751v1
- Date: Tue, 18 Nov 2025 18:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.270975
- Title: Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers
- Title(参考訳): Co-Me:ビジュアル幾何学変換器のための信頼誘導型トークンマージ
- Authors: Yutian Chen, Yuheng Qiu, Ruogu Li, Ali Agha, Shayegan Omidshafiei, Jay Patrikar, Sebastian Scherer,
- Abstract要約: 信頼性向上型トークンマージ(Co-Me)
Co-Meは、様々なマルチビューおよびストリーミング視覚幾何学変換器にシームレスに適用する。
VGGTやMapAnythingに適用すると、Co-Meは最大で11.3times$と7.2times$スピードアップを達成する。
- 参考スコア(独自算出の注目度): 8.521340961260668
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Confidence-Guided Token Merging (Co-Me), an acceleration mechanism for visual geometric transformers without retraining or finetuning the base model. Co-Me distilled a light-weight confidence predictor to rank tokens by uncertainty and selectively merge low-confidence ones, effectively reducing computation while maintaining spatial coverage. Compared to similarity-based merging or pruning, the confidence signal in Co-Me reliably indicates regions emphasized by the transformer, enabling substantial acceleration without degrading performance. Co-Me applies seamlessly to various multi-view and streaming visual geometric transformers, achieving speedups that scale with sequence length. When applied to VGGT and MapAnything, Co-Me achieves up to $11.3\times$ and $7.2\times$ speedup, making visual geometric transformers practical for real-time 3D perception and reconstruction.
- Abstract(参考訳): ベースモデルの再トレーニングや微調整を伴わない視覚幾何学変換器の高速化機構である信頼性誘導型トークンマージ(Co-Me)を提案する。
Co-Meは、不確実性によってトークンをランク付けするための軽量な信頼度予測器を蒸留し、低信頼度を選択的にマージし、空間的カバレッジを維持しながら計算を効果的に削減した。
類似性に基づくマージやプルーニングと比較して、Co-Meの信頼信号は変換器が強調する領域を確実に示し、性能を劣化させることなく相当な加速を可能にする。
Co-Meは、様々なマルチビューおよびストリーミング視覚幾何学変換器にシームレスに適用し、シーケンス長でスケールするスピードアップを実現する。
VGGTやMapAnythingに適用すると、Co-Meは最大で11.3\times$と7.2\times$のスピードアップを達成する。
関連論文リスト
- Platonic Transformers: A Solid Choice For Equivariance [25.29042615187704]
このトレードオフを解決するために、Platonic Transformerを導入します。
プラトンソリッド対称性群から参照フレームに対する注意を定義することにより、本手法は原則的重み共有スキームを導出する。
この注意は、動的群畳み込みと正式に等価であることを示し、モデルが適応的幾何フィルタを学習していることを明らかにする。
論文 参考訳(メタデータ) (2025-10-03T20:51:25Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer [63.99222215387881]
本稿では,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。
本手法は,画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2021-08-03T09:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。