論文の概要: Dual-branch Distilled Transformer for Efficient Asymmetric UAV Tracking
- arxiv url: http://arxiv.org/abs/2605.28018v1
- Date: Wed, 27 May 2026 06:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.797414
- Title: Dual-branch Distilled Transformer for Efficient Asymmetric UAV Tracking
- Title(参考訳): 効率的な非対称UAV追尾用デュアルブランチ蒸留変圧器
- Authors: Hongtao Yang, Bineng Zhong, Qihua Liang, Yaozong Zheng, Xiantao Hu, Yuanliang Xue, Shuxiang Song,
- Abstract要約: EATrackは教師が指導するUAV追跡のための二重分岐蒸留戦略である。
生徒に強い対象表現を学習させることで、表現の弱さを補う。
5つのUAVベンチマークの実験では、EATrackは精度と速度のバランスが良好であることが示されている。
- 参考スコア(独自算出の注目度): 34.13651852483772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the real-time demands of UAV tracking, many methods simplify the backbone to reduce computation, but this often weakens feature representation and degrades performance in complex scenarios. To alleviate this issue, we propose EATrack, an efficient and asymmetric UAV tracking framework centered around a teacher-guided dual-branch distillation strategy that enhances the feature expressiveness of the lightweight student model. Specifically, EATrack investigates two complementary perspectives of knowledge transfer: spatially focused feature-level distillation that compensates for weakened representations by guiding the student to learn strong target representations, and prediction-level distillation that enhances spatial localization by learning the teacher's capability for accurate target localization. Furthermore, to enhance robustness against appearance variations, we introduce a fine-grained target-aware distillation strategy that selectively transfers the teacher's target modeling capacity to the student. A temporal adaptation module is incorporated at inference to enhance robustness over time. Experiments on five UAV benchmarks demonstrate that EATrack achieves a favorable balance between accuracy and speed. Code: https://github.com/GXNU-ZhongLab/EATrack
- Abstract(参考訳): UAV追跡のリアルタイム要求を考えると、多くの手法がバックボーンを単純化して計算を減らしているが、複雑なシナリオでは特徴表現が弱くなり、性能が低下することが多い。
この問題を軽減するために,教師が指導する二重ブランチ蒸留方式を中心とした効率的な非対称なUAV追跡フレームワークであるEATrackを提案し,軽量な学生モデルの特徴表現性を高める。
具体的には, 学生に強い目標表現を学習させることで表現の弱さを補う空間集中型特徴量蒸留と, 正確な目標位置化能力を学ぶことで空間的位置化を高める予測レベル蒸留の2つの相補的視点を考察する。
さらに, 外観変化に対するロバスト性を高めるために, 教師のターゲットモデリング能力を学生に選択的に伝達する, 微粒なターゲット認識蒸留戦略を導入する。
時間とともに堅牢性を高めるため、時間適応モジュールを推論時に組み込む。
5つのUAVベンチマークの実験では、EATrackは精度と速度のバランスが良好であることが示されている。
コード:https://github.com/GXNU-ZhongLab/EATrack
関連論文リスト
- EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation [58.84721000276226]
EvoDriveVLAは、新しい協調認識計画フレームワークである。
自己認識の知覚的制約とオラクル誘導軌道最適化を統合している。
EvoDriveVLAはオープンループ評価におけるSOTA性能を実現し,クローズドループ評価における性能を大幅に向上させる。
論文 参考訳(メタデータ) (2026-03-10T10:19:07Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking [11.146155422858824]
Vision Transformer (ViT) バックボーンを用いたシングルストリームアーキテクチャは、リアルタイムUAVトラッキングに大きな可能性を示している。
UAV追跡のためのViTに基づいて,Occlusion-Robust Representation (ORR) の学習を提案する。
また,よりコンパクトなトラッカーを作成するために,適応的特徴量に基づく知識蒸留法(AFKD)を提案する。
論文 参考訳(メタデータ) (2025-04-12T14:06:50Z) - Learning an Adaptive and View-Invariant Vision Transformer for Real-Time UAV Tracking [15.597151507814429]
トランスフォーマーベースのモデルでは、視覚的トラッキングが改善されているが、ほとんどの場合、リソースデバイス上でリアルタイムに実行することはできない。
アクティベーションモジュール(AM)を介してトランスフォーマーブロックを適応的に活性化する適応追跡フレームワークであるAVTrackを提案する。
極端視点変動に対処するために,相互情報(MI)を用いたビューイン表現の学習を提案する。
さらに,新しいMIベースのマルチ教師ナレッジフレームワークを組み込んだ拡張トラッカーであるAVTrack-MDを提案する。
論文 参考訳(メタデータ) (2024-12-28T03:57:44Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - General Compression Framework for Efficient Transformer Object Tracking [29.780411151321438]
そこで我々は,CompressTrackerという,効率的なトランスフォーマーオブジェクト追跡のための汎用モデル圧縮フレームワークを提案する。
本手法は,教師モデルのトランスフォーマー層を異なる段階に分割する新たな段階分割戦略を特徴とする。
また、学生モデルの特定の段階を教師モデルとランダムに置き換える独自の代替訓練手法を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:27:15Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。