論文の概要: Towards Sequence-Level Training for Visual Tracking
- arxiv url: http://arxiv.org/abs/2208.05810v1
- Date: Thu, 11 Aug 2022 13:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:01:46.109298
- Title: Towards Sequence-Level Training for Visual Tracking
- Title(参考訳): 視覚追跡のためのシーケンスレベルトレーニングに向けて
- Authors: Minji Kim, Seungkwan Lee, Jungseul Ok, Bohyung Han, Minsu Cho
- Abstract要約: 本研究は、強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入する。
4つの代表的な追跡モデル、SiamRPN++、SiamAttn、TransT、TrDiMPは、提案手法をトレーニングに取り入れることで一貫して改善されている。
- 参考スコア(独自算出の注目度): 60.95799261482857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the extensive adoption of machine learning on the task of visual
object tracking, recent learning-based approaches have largely overlooked the
fact that visual tracking is a sequence-level task in its nature; they rely
heavily on frame-level training, which inevitably induces inconsistency between
training and testing in terms of both data distributions and task objectives.
This work introduces a sequence-level training strategy for visual tracking
based on reinforcement learning and discusses how a sequence-level design of
data sampling, learning objectives, and data augmentation can improve the
accuracy and robustness of tracking algorithms. Our experiments on standard
benchmarks including LaSOT, TrackingNet, and GOT-10k demonstrate that four
representative tracking models, SiamRPN++, SiamAttn, TransT, and TrDiMP,
consistently improve by incorporating the proposed methods in training without
modifying architectures.
- Abstract(参考訳): ビジュアルオブジェクト追跡のタスクに機械学習が広く採用されているにもかかわらず、最近の学習ベースのアプローチは、視覚的トラッキングがその性質においてシーケンスレベルのタスクであるという事実をほとんど見落としている。
本研究は,強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入し,データサンプリング,学習目標,データ拡張のシーケンスレベル設計が追跡アルゴリズムの正確性と堅牢性を改善する方法について論じる。
LaSOT, TrackingNet, GOT-10k などの標準ベンチマーク実験により,SiamRPN++, SiamAttn, TransT, TrDiMP の4つの代表的な追跡モデルが,アーキテクチャを変更することなく,提案手法をトレーニングに組み込むことで一貫した改善が得られた。
関連論文リスト
- Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - An Effective Incorporating Heterogeneous Knowledge Curriculum Learning
for Sequence Labeling [9.237399190335598]
シーケンスラベリングタスクに特化して設計された2段階のカリキュラム学習(TCL)フレームワークを提案する。
このフレームワークは、データインスタンスを容易から困難に徐々に導入し、パフォーマンスとトレーニング速度の両方を改善することで、トレーニングを強化する。
論文 参考訳(メタデータ) (2024-02-21T05:04:29Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。