論文の概要: Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking
- arxiv url: http://arxiv.org/abs/2602.16160v1
- Date: Wed, 18 Feb 2026 03:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.502379
- Title: Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking
- Title(参考訳): 変圧器を用いた視覚追跡のための不確かさ誘導型推論時間深さ適応
- Authors: Patrick Poggi, Divake Kumar, Theja Tulabandhula, Amit Ranjan Trivedi,
- Abstract要約: トランスフォーマーベースの単一オブジェクトトラッカーは、最先端の精度を実現するが、固定深度推論に依存している。
本研究では,動的かつ不確実性を考慮した深度適応を実現するアーキテクチャ保存手法UncL-STARKを提案する。
GOT-10kとLaSOTの実験では、最大で12%のGFLOPs削減、8.9%のレイテンシ削減、10.8%の省エネが示されている。
- 参考スコア(独自算出の注目度): 6.901398609610159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based single-object trackers achieve state-of-the-art accuracy but rely on fixed-depth inference, executing the full encoder--decoder stack for every frame regardless of visual complexity, thereby incurring unnecessary computational cost in long video sequences dominated by temporally coherent frames. We propose UncL-STARK, an architecture-preserving approach that enables dynamic, uncertainty-aware depth adaptation in transformer-based trackers without modifying the underlying network or adding auxiliary heads. The model is fine-tuned to retain predictive robustness at multiple intermediate depths using random-depth training with knowledge distillation, thus enabling safe inference-time truncation. At runtime, we derive a lightweight uncertainty estimate directly from the model's corner localization heatmaps and use it in a feedback-driven policy that selects the encoder and decoder depth for the next frame based on the prediction confidence by exploiting temporal coherence in video. Extensive experiments on GOT-10k and LaSOT demonstrate up to 12\% GFLOPs reduction, 8.9\% latency reduction, and 10.8\% energy savings while maintaining tracking accuracy within 0.2\% of the full-depth baseline across both short-term and long-term sequences.
- Abstract(参考訳): トランスフォーマーベースのシングルオブジェクトトラッカーは、最先端の精度を実現するが、固定深度推論に依存し、視覚的複雑さに関係なく全エンコーダ-デコーダスタックを実行し、時間的に整合したフレームが支配する長いビデオシーケンスにおいて不要な計算コストを発生させる。
本研究では,UncL-STARKを提案する。UncL-STARKは,トランスフォーマをベースとしたトラッカーにおいて,ネットワークの変更や補助ヘッドの追加なしに動的かつ不確実性を考慮した奥行き適応を実現するアーキテクチャ保存手法である。
このモデルは、知識蒸留によるランダム深度トレーニングを用いて、複数の中間深度での予測ロバスト性を維持するよう微調整され、安全な推論時間切り離しを可能にする。
実行時にモデル隅角の局所化熱マップから直接軽量な不確実性推定を導出し、ビデオの時間的コヒーレンスを利用して予測信頼度に基づいてエンコーダとデコーダの深さを選択するフィードバック駆動型ポリシーでそれを利用する。
GOT-10k と LaSOT の大規模な実験では、GFLOPs が 12 % 減少し、レイテンシが 8.9 % 減少し、10.8 % の省エネルギが得られた。
関連論文リスト
- StableDPT: Temporal Stable Monocular Video Depth Estimation [14.453483279783908]
本稿では,最新の画像ベース(深度)推定モデルをビデオ処理に適用する手法を提案する。
我々のアーキテクチャは、市販のViTエンコーダ上に構築され、Dense Prediction Transformer (DPT) ヘッドが強化されている。
複数のベンチマークデータセットに対する評価では、リアルタイムシナリオにおける時間的一貫性の向上、最先端のパフォーマンスの競争力、および上位2倍高速な処理が示されている。
論文 参考訳(メタデータ) (2026-01-06T08:02:14Z) - FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing [97.35186681023025]
FFP-300Kは、720p解像度と81フレームの高忠実度ビデオペアの大規模データセットである。
本稿では,第1フレームの外観維持とソース映像の動作保存の緊張を解消する,真の誘導不要なFFPのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-05T01:46:22Z) - Video Depth Propagation [54.523028170425256]
既存の手法は単純なフレーム・バイ・フレームの単分子モデルに依存しており、時間的矛盾と不正確な結果をもたらす。
本稿では,オンラインビデオパイプラインを効果的に活用し,深い特徴伝達を行うVeloDepthを提案する。
構造的に時間的整合性を強制し, 連続するフレーム間に安定した深さ予測を行い, 効率を向上する。
論文 参考訳(メタデータ) (2025-12-11T15:08:37Z) - Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition [26.665132884613477]
Spike Window Decodingアルゴリズムは、WFSTでデコードされたフレームの数をCTC出力のスパイクフレームの数と線形に関連付けることにより、推論速度を大幅に改善する。
提案手法は,AISHELL-1と大規模In-Houseデータセットの両方で証明された復号速度を大幅に向上させ,SOTA認識精度を実現する。
論文 参考訳(メタデータ) (2025-01-01T12:20:07Z) - Convex Hull Prediction for Adaptive Video Streaming by Recurrent Learning [38.574550778712236]
本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
提案するモデルでは, 最適凸殻の近似精度が向上し, 既存の手法と比較して, 競争時間の節約が期待できる。
論文 参考訳(メタデータ) (2022-06-10T05:11:02Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。