論文の概要: General Compression Framework for Efficient Transformer Object Tracking
- arxiv url: http://arxiv.org/abs/2409.17564v2
- Date: Sat, 28 Jun 2025 08:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.385454
- Title: General Compression Framework for Efficient Transformer Object Tracking
- Title(参考訳): 効率的な変圧器オブジェクト追跡のための汎用圧縮フレームワーク
- Authors: Lingyi Hong, Jinglun Li, Xinyu Zhou, Shilin Yan, Pinxue Guo, Kaixun Jiang, Zhaoyu Chen, Shuyong Gao, Runze Li, Xingdong Sheng, Wei Zhang, Hong Lu, Wenqiang Zhang,
- Abstract要約: そこで我々は,CompressTrackerという,効率的なトランスフォーマーオブジェクト追跡のための汎用モデル圧縮フレームワークを提案する。
本手法は,教師モデルのトランスフォーマー層を異なる段階に分割する新たな段階分割戦略を特徴とする。
また、学生モデルの特定の段階を教師モデルとランダムに置き換える独自の代替訓練手法を設計する。
- 参考スコア(独自算出の注目度): 29.780411151321438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works have attempted to improve tracking efficiency through lightweight architecture design or knowledge distillation from teacher models to compact student trackers. However, these solutions often sacrifice accuracy for speed to a great extent, and also have the problems of complex training process and structural limitations. Thus, we propose a general model compression framework for efficient transformer object tracking, named CompressTracker, to reduce model size while preserving tracking accuracy. Our approach features a novel stage division strategy that segments the transformer layers of the teacher model into distinct stages to break the limitation of model structure. Additionally, we also design a unique replacement training technique that randomly substitutes specific stages in the student model with those from the teacher model, as opposed to training the student model in isolation. Replacement training enhances the student model's ability to replicate the teacher model's behavior and simplifies the training process. To further forcing student model to emulate teacher model, we incorporate prediction guidance and stage-wise feature mimicking to provide additional supervision during the teacher model's compression process. CompressTracker is structurally agnostic, making it compatible with any transformer architecture. We conduct a series of experiment to verify the effectiveness and generalizability of our CompressTracker. Our CompressTracker-SUTrack, compressed from SUTrack, retains about 99 performance on LaSOT (72.2 AUC) while achieves 2.42x speed up. Code is available at https://github.com/LingyiHongfd/CompressTracker.
- Abstract(参考訳): 従来の研究は、軽量な建築設計や教師モデルからコンパクトな学生トラッカーへの知識蒸留を通じて、トラッキング効率の改善を試みてきた。
しかし、これらの解はしばしばスピードの精度をかなり犠牲にし、複雑なトレーニングプロセスと構造的制限の問題も抱える。
そこで本研究では,効率的なトランスフォーマーオブジェクト追跡のための一般的なモデル圧縮フレームワークであるCompressTrackerを提案し,追跡精度を保ちながらモデルサイズを削減する。
提案手法は,教師モデルの変圧器層を異なる段階に分割し,モデル構造の限界を突破する新たな段階分割戦略を特徴とする。
また,教師モデルと生徒モデルとを無作為に置き換える独自の代替訓練手法を設計し,生徒モデルを個別に訓練するのに対し,教師モデルと無作為に置き換える。
代替トレーニングは、教師モデルの振る舞いを再現し、訓練プロセスを単純化する学生モデルの能力を高める。
さらに,教師モデルをエミュレートするよう学生モデルを強制するために,教師モデルの圧縮過程において,教師モデルにさらなる監督を与えるために,予測指導とステージワイド機能模倣を取り入れた。
CompressTrackerは構造的に非依存であり、あらゆるトランスフォーマーアーキテクチャと互換性がある。
我々は,CompressTrackerの有効性と一般化性を検証するために,一連の実験を行った。
SUTrack から圧縮された CompressTracker-SUTrack は LaSOT (72.2 AUC) で約99 回動作し,2.42 倍の高速化を実現している。
コードはhttps://github.com/LingyiHongfd/CompressTracker.comで入手できる。
関連論文リスト
- Learning Adaptive and View-Invariant Vision Transformer with Multi-Teacher Knowledge Distillation for Real-Time UAV Tracking [15.597151507814429]
AVTrackは,リアルタイムなUAV追跡のための変圧器ブロックを選択的に活性化するアダプティブフレームワークである。
視角の極端な変化に伴う課題に対処するために,相互情報(MI)を用いたビュー不変表現を提案する。
AVTrack-MDと呼ばれる新しいMIベースの多教師知識蒸留(MD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T03:57:44Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Efficient Training for Visual Tracking with Deformable Transformer [0.0]
本稿では、エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを紹介する。
本フレームワークは、変形可能なトランスデコーダがターゲットヘッドとして機能する効率的なエンコーダ・デコーダ構造を用いる。
トレーニングには,新しい1対多ラベルの割り当てと補助的認知技術を導入する。
論文 参考訳(メタデータ) (2023-09-06T03:07:43Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - AttTrack: Online Deep Attention Transfer for Multi-object Tracking [4.5116674432168615]
マルチオブジェクトトラッキング(MOT)は、監視や自動運転といったインテリジェントなビデオ分析アプリケーションにおいて重要なコンポーネントである。
本稿では,複雑なネットワーク(教師)の高レベルな特徴から,学習時間と推論時間の両方で軽量なネットワーク(学生)に知識を伝達することにより,MOTの高速化を目指す。
提案した AttTrack フレームワークは,1) 教師モデルと学生モデルから中間表現を整合させるクロスモデル特徴学習,2) 推論時に2つのモデルの実行をインターリーブすること,3) 教師モデルから更新された予測を事前知識として取り入れ,学生モデルを支援する。
論文 参考訳(メタデータ) (2022-10-16T22:15:31Z) - Sparse Distillation: Speeding Up Text Classification by Using Bigger
Models [49.8019791766848]
最先端の変圧器モデルを軽量の学生モデルに拡張することは、推論時の計算コストを削減する効果的な方法である。
本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。
実験の結果,RoBERTa-Large教師の授業成績の97%を6つのテキスト分類タスクのコレクションに保持していることがわかった。
論文 参考訳(メタデータ) (2021-10-16T10:04:14Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。