論文の概要: Tiny Object Tracking: A Large-scale Dataset and A Baseline
- arxiv url: http://arxiv.org/abs/2202.05659v1
- Date: Fri, 11 Feb 2022 15:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 15:15:19.317457
- Title: Tiny Object Tracking: A Large-scale Dataset and A Baseline
- Title(参考訳): Tiny Object Tracking: 大規模データセットとベースライン
- Authors: Yabin Zhu, Chenglong Li, Yao Liu, Xiao Wang, Jin Tang, Bin Luo,
Zhixiang Huang
- Abstract要約: 大規模なビデオデータセットを作成し、合計217Kフレームの434のシーケンスを含む。
データ作成において、幅広い視点とシーンの複雑さをカバーするため、12の課題属性を考慮に入れます。
統合されたフレームワークで3段階の知識蒸留を行うMKDNet(Multilevel Knowledge Distillation Network)を提案する。
- 参考スコア(独自算出の注目度): 40.93697515531104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tiny objects, frequently appearing in practical applications, have weak
appearance and features, and receive increasing interests in meany vision
tasks, such as object detection and segmentation. To promote the research and
development of tiny object tracking, we create a large-scale video dataset,
which contains 434 sequences with a total of more than 217K frames. Each frame
is carefully annotated with a high-quality bounding box. In data creation, we
take 12 challenge attributes into account to cover a broad range of viewpoints
and scene complexities, and annotate these attributes for facilitating the
attribute-based performance analysis. To provide a strong baseline in tiny
object tracking, we propose a novel Multilevel Knowledge Distillation Network
(MKDNet), which pursues three-level knowledge distillations in a unified
framework to effectively enhance the feature representation, discrimination and
localization abilities in tracking tiny objects. Extensive experiments are
performed on the proposed dataset, and the results prove the superiority and
effectiveness of MKDNet compared with state-of-the-art methods. The dataset,
the algorithm code, and the evaluation code are available at
https://github.com/mmic-lcl/Datasets-and-benchmark-code.
- Abstract(参考訳): 小さな物体は実用的用途によく登場し、外観や特徴が弱く、物体検出やセグメンテーションといった平均的な視覚タスクへの関心が高まっている。
小さな物体追跡の研究と開発を促進するために、私たちは、合計217kフレーム以上の434のシーケンスを含む大規模ビデオデータセットを作成しました。
各フレームは高品質のバウンディングボックスで注意深くアノテートされる。
データ作成では、幅広い視点やシーンの複雑さをカバーするために12のチャレンジ属性を考慮に入れ、属性ベースのパフォーマンス分析を容易にするためにこれらの属性を注釈付けします。
小型物体追跡における特徴表現, 識別, 局所化能力を効果的に向上するために, 統合されたフレームワークにおける3段階の知識蒸留を追求する, 新規なマルチレベル知識蒸留ネットワーク(MKDNet)を提案する。
提案するデータセット上で広範な実験を行い,mkdnetが最先端手法と比較して優れていること,有効性を示した。
データセット、アルゴリズムコード、評価コードはhttps://github.com/mmic-lcl/datasets-and-benchmark-codeで入手できる。
関連論文リスト
- Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Uncertainty Aware Active Learning for Reconfiguration of Pre-trained
Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。
ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:14:10Z) - BigDetection: A Large-scale Benchmark for Improved Object Detector
Pre-training [44.32782190757813]
我々はBigDetectionと呼ばれる新しい大規模ベンチマークを構築した。
私たちのデータセットには600のオブジェクトカテゴリがあり、3.4M以上のトレーニングイメージと36Mのバウンディングボックスが含まれています。
論文 参考訳(メタデータ) (2022-03-24T17:57:29Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Unsupervised Discovery of the Long-Tail in Instance Segmentation Using
Hierarchical Self-Supervision [3.841232411073827]
本稿では,インスタンスセグメンテーションにおける長尾カテゴリの非監視的発見を行う手法を提案する。
我々のモデルは、一般的なカテゴリよりも新しくよりきめ細かなオブジェクトを発見できる。
本モデルでは,LVISにおいて,教師付きおよび部分教師付き手法と比較して,競争力のある定量的結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-02T22:05:03Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。