論文の概要: HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT
- arxiv url: http://arxiv.org/abs/2603.25336v1
- Date: Thu, 26 Mar 2026 11:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.265114
- Title: HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT
- Title(参考訳): HeSS:VGGTにおけるスパーシティ再分配のための頭部感度スコア
- Authors: Yongsung Kim, Wooseok Song, Jaihyun Lew, Hun Hwangbo, Jaehoon Lee, Sungroh Yoon,
- Abstract要約: Visual Geometry Grounded Transformer (VGGT)は先進的な3Dビジョンを持つが、そのグローバルアテンション層は2次計算コストに悩まされている。
本稿では,頭部のスペーシビリティを効果的に定量化し,活用する2段階スペーシフィケーションパイプラインを提案する。
- 参考スコア(独自算出の注目度): 38.44377724664397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Geometry Grounded Transformer (VGGT) has advanced 3D vision, yet its global attention layers suffer from quadratic computational costs that hinder scalability. Several sparsification-based acceleration techniques have been proposed to alleviate this issue, but they often suffer from substantial accuracy degradation. We hypothesize that the accuracy degradation stems from the heterogeneity in head-wise sparsification sensitivity, as the existing methods apply a uniform sparsity pattern across all heads. Motivated by this hypothesis, we present a two-stage sparsification pipeline that effectively quantifies and exploits headwise sparsification sensitivity. In the first stage, we measure head-wise sparsification sensitivity using a novel metric, the Head Sensitivity Score (HeSS), which approximates the Hessian with respect to two distinct error terms on a small calibration set. In the inference stage, we perform HeSS-Guided Sparsification, leveraging the pre-computed HeSS to reallocate the total attention budget-assigning denser attention to sensitive heads and sparser attention to more robust ones. We demonstrate that HeSS effectively captures head-wise sparsification sensitivity and empirically confirm that attention heads in the global attention layers exhibit heterogeneous sensitivity characteristics. Extensive experiments further show that our method effectively mitigates performance degradation under high sparsity, demonstrating strong robustness across varying sparsification levels. Code is available at https://github.com/libary753/HeSS.
- Abstract(参考訳): Visual Geometry Grounded Transformer (VGGT)は高度な3Dビジョンを持っているが、そのグローバルな関心層はスケーラビリティを妨げる2次計算コストに悩まされている。
この問題を緩和するために、いくつかのスペーシフィケーションベースの加速技術が提案されているが、しばしばかなりの精度の劣化に悩まされる。
従来の手法では全頭部に均一な間隔パターンを適用するため, 精度劣化は頭部のスカラー化感度の不均一性に起因すると仮定する。
この仮説により,頭部のスペーシフィケーション感度を効果的に定量化し活用する2段階スペーシフィケーションパイプラインを提案する。
第1段階では,新しい計量であるHeSS(Head Sensitivity Score)を用いて頭部のスペーシ感度を測定し,小さな校正集合上の2つの異なる誤差項についてヘシアンを近似する。
推測段階では,HeSS誘導スペーシフィケーション(HeSS-Guided Sparsification)を行い,より頑健なスペーシフィケーションに注意を集中させ,より頑健なスペーシフィケーションに注意を向ける。
我々は,HeSSが頭部のスペーシング感度を効果的に把握し,グローバルアテンション層におけるアテンションヘッドがヘテロジニアス感度特性を示すことを実証した。
さらに, 実験により, 高分散度下での性能劣化を効果的に軽減し, 種々のスパシフィケーションレベルの強い強靭性を示すことを示した。
コードはhttps://github.com/libary753/HeSSで入手できる。
関連論文リスト
- Denoising-Enhanced YOLO for Robust SAR Ship Detection [9.818917054838964]
CPN-YOLOは、YOLOv8上に構築された高精度な船舶検出フレームワークである。
本稿では,入力前処理のための学習可能な大規模カーネル記述モジュールを提案する。
第2に,マルチスケールモデリングの強化を目的としたアテンション機構に基づく特徴抽出強化戦略を設計する。
論文 参考訳(メタデータ) (2026-02-27T09:00:19Z) - Halt the Hallucination: Decoupling Signal and Semantic OOD Detection Based on Cascaded Early Rejection [7.227431306238601]
粗い論理による異常検出のための階層的フィルタリングを実現するカスケード早期退避(CER)フレームワークを提案する。
実験の結果、CERは計算オーバーヘッドを32%削減するだけでなく、CIFAR-100ベンチマークの大幅な性能向上も達成している。
論文 参考訳(メタデータ) (2026-02-06T02:55:35Z) - Breaking Semantic Hegemony: Decoupling Principal and Residual Subspaces for Generalized OOD Detection [10.596067236901968]
最先端(SOTA)モデルにおける単純度パラドックスについて検討する。
モデルは、意味的に微妙なOODサンプルを区別する上で、鋭い感度を示すが、厳密な幾何学的盲点に苦しむ。
そこで我々は,D-KNNを提案する。
論文 参考訳(メタデータ) (2026-02-05T06:32:33Z) - SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning [59.013863248600046]
本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。
第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
論文 参考訳(メタデータ) (2025-10-26T05:03:55Z) - Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning [73.40364018029673]
連続的なテスト時間適応オブジェクト検出(CTTA-OD)は、源となる事前訓練された検出器を常に変化する環境にオンライン適応させることを目的としている。
私たちのモチベーションは、学習したすべての特徴が有益であるとは限らないという観察に起因しています。
FLOPの計算オーバヘッドを12%削減し,優れた適応性を実現する。
論文 参考訳(メタデータ) (2025-06-03T05:27:56Z) - Breaking the Bias: Recalibrating the Attention of Industrial Anomaly Detection [20.651257973799527]
RAAD(Recalibrating Attention of Industrial Anomaly Detection)は、アテンションマップを系統的に分解・再分類するフレームワークである。
HQSは、アテンションマップの階層性に基づいてビット幅を動的に調整する。
一つの3090tiを用いて,32データセットに対するRAADの有効性を検証した。
論文 参考訳(メタデータ) (2024-12-11T08:31:47Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [57.11798881492183]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は, 前回のランドマークに基づくアフィンアライメントよりも, 野生の頭部のアスペクト比不変収穫が優れているという観測に基づいている。
提案手法は, 汎用物体回転回帰法や3次元頭部再構成法など, その他の密接に関連する問題を解く上でも有用である。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z) - Perception Reinforcement Using Auxiliary Learning Feature Fusion: A
Modified Yolov8 for Head Detection [8.065947209864646]
ターゲット認識による頭部検出性能を向上させる改良型Yolov8を提案する。
補助タスクとして、LSTMと畳み込みブロックからなる補助学習特徴融合(ALFF)モジュールを用いる。
さらに, 配電損失にノイズを導入し, モデルフィッティングを容易にし, 検出精度を向上させる。
論文 参考訳(メタデータ) (2023-10-14T04:52:35Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。