論文の概要: Video Annotation for Visual Tracking via Selection and Refinement
- arxiv url: http://arxiv.org/abs/2108.03821v1
- Date: Mon, 9 Aug 2021 05:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:21:06.074591
- Title: Video Annotation for Visual Tracking via Selection and Refinement
- Title(参考訳): 選択・精細化による視線追跡のためのビデオアノテーション
- Authors: Kenan Dai, Jie Zhao, Lijun Wang, Dong Wang, Jianhua Li, Huchuan Lu,
Xuesheng Qian, Xiaoyun Yang
- Abstract要約: ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
- 参考スコア(独自算出の注目度): 74.08109740917122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning based visual trackers entail offline pre-training on large
volumes of video datasets with accurate bounding box annotations that are
labor-expensive to achieve. We present a new framework to facilitate bounding
box annotations for video sequences, which investigates a
selection-and-refinement strategy to automatically improve the preliminary
annotations generated by tracking algorithms. A temporal assessment network
(T-Assess Net) is proposed which is able to capture the temporal coherence of
target locations and select reliable tracking results by measuring their
quality. Meanwhile, a visual-geometry refinement network (VG-Refine Net) is
also designed to further enhance the selected tracking results by considering
both target appearance and temporal geometry constraints, allowing inaccurate
tracking results to be corrected. The combination of the above two networks
provides a principled approach to ensure the quality of automatic video
annotation. Experiments on large scale tracking benchmarks demonstrate that our
method can deliver highly accurate bounding box annotations and significantly
reduce human labor by 94.0%, yielding an effective means to further boost
tracking performance with augmented training data.
- Abstract(参考訳): ディープラーニングベースのビジュアルトラッカは、大量のビデオデータセットをオフラインで事前トレーニングし、正確なバウンディングボックスアノテーションを伴います。
本稿では,ビデオシーケンスに対するボックスアノテーションのバウンディングを容易にする新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉え、その品質を測定することで信頼性の高い追跡結果を選択することができる時間アセスメントネットワーク(t-asses net)を提案する。
また,対象の外観と時間的形状の制約を考慮し,不正確な追跡結果を補正することで,選択された追跡結果のさらなる向上を図るために,vg-refine net (visual-geometryfineing network) も設計されている。
上記の2つのネットワークの組み合わせは、自動ビデオアノテーションの品質を保証するための原則的なアプローチを提供する。
大規模追跡ベンチマークによる実験は,高度に正確な境界ボックスアノテーションを提供でき,94.0%の人的労力削減が可能であり,強化されたトレーニングデータによる追跡性能の向上に有効な手段であることを示す。
関連論文リスト
- Learning Tracking Representations from Single Point Annotations [49.47550029470299]
本稿では,単一点アノテーションから追跡表現を弱教師付きで学習することを提案する。
具体的には,エンド・ツー・エンド・エンド・コントラスト学習に先立って,対象対象対象性を取り入れたソフトコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:50:58Z) - Weakly Supervised Video Individual CountingWeakly Supervised Video
Individual Counting [126.75545291243142]
Video Individual Countingは、単一のビデオ内のユニークな個人数を予測することを目的としている。
トラジェクトリラベルが提供されない弱い教師付きVICタスクを導入する。
そこで我々は,ネットワークを駆動し,インフロー,アウトフロー,残りを識別するために,エンドツーエンドのトレーニング可能なソフトコントラスト損失を考案した。
論文 参考訳(メタデータ) (2023-12-10T16:12:13Z) - Cannot See the Forest for the Trees: Aggregating Multiple Viewpoints to
Better Classify Objects in Videos [36.28269135795851]
本稿では,トラックレットに含まれる複数の視点から情報を集約することで,トラックレットの分類精度を向上させる集合分類器を提案する。
ResNet-101上のQDTrackにメソッドをアタッチするだけで、TAOの検証とテストセットで19.9%と15.7%のTrackAP_50という新しい最先端を実現できます。
論文 参考訳(メタデータ) (2022-06-05T07:51:58Z) - A Bayesian Detect to Track System for Robust Visual Object Tracking and
Semi-Supervised Model Learning [1.7268829007643391]
ニューラルネットワークの出力によってパラメータ化されたベイズ追跡・検出フレームワークにおける副次的問題について述べる。
本稿では,粒子フィルタを用いた物体状態推定のための近似サンプリングアルゴリズムを提案する。
粒子フィルタ推論アルゴリズムを用いて,間欠的なラベル付きフレーム上でのトラッキングネットワークの学習に半教師付き学習アルゴリズムを用いる。
論文 参考訳(メタデータ) (2022-05-05T00:18:57Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Self-supervised Object Tracking with Cycle-consistent Siamese Networks [55.040249900677225]
我々は、オブジェクト追跡のためのサイクル一貫性の自己監視フレームワークにおいて、エンドツーエンドのSiameseネットワークを利用する。
トラッキングフレームワークにシームズ領域の提案とマスク回帰ネットワークを統合することで,各フレームのアノテーションを使わずに,より高速で正確なトラッカーを学習できるようにすることを提案する。
論文 参考訳(メタデータ) (2020-08-03T04:10:38Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - Object-Adaptive LSTM Network for Real-time Visual Tracking with
Adversarial Data Augmentation [31.842910084312265]
本稿では,オブジェクト適応型LSTMネットワークを用いて,映像の逐次的依存関係を効果的に捕捉し,オブジェクトの外観変化を適応的に学習する,新しいリアルタイムビジュアルトラッキング手法を提案する。
4つのビジュアルトラッキングベンチマーク実験により,トラッキング精度と速度の両面から,提案手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2020-02-07T03:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。