論文の概要: Cannot See the Forest for the Trees: Aggregating Multiple Viewpoints to
Better Classify Objects in Videos
- arxiv url: http://arxiv.org/abs/2206.02116v1
- Date: Sun, 5 Jun 2022 07:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:19:50.468507
- Title: Cannot See the Forest for the Trees: Aggregating Multiple Viewpoints to
Better Classify Objects in Videos
- Title(参考訳): 木の森は見えない:ビデオ内のオブジェクトをよりよく分類するために複数の視点を集約する
- Authors: Sukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim
- Abstract要約: 本稿では,トラックレットに含まれる複数の視点から情報を集約することで,トラックレットの分類精度を向上させる集合分類器を提案する。
ResNet-101上のQDTrackにメソッドをアタッチするだけで、TAOの検証とテストセットで19.9%と15.7%のTrackAP_50という新しい最先端を実現できます。
- 参考スコア(独自算出の注目度): 36.28269135795851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, both long-tailed recognition and object tracking have made great
advances individually. TAO benchmark presented a mixture of the two,
long-tailed object tracking, in order to further reflect the aspect of the
real-world. To date, existing solutions have adopted detectors showing
robustness in long-tailed distributions, which derive per-frame results. Then,
they used tracking algorithms that combine the temporally independent
detections to finalize tracklets. However, as the approaches did not take
temporal changes in scenes into account, inconsistent classification results in
videos led to low overall performance. In this paper, we present a set
classifier that improves accuracy of classifying tracklets by aggregating
information from multiple viewpoints contained in a tracklet. To cope with
sparse annotations in videos, we further propose augmentation of tracklets that
can maximize data efficiency. The set classifier is plug-and-playable to
existing object trackers, and highly improves the performance of long-tailed
object tracking. By simply attaching our method to QDTrack on top of
ResNet-101, we achieve the new state-of-the-art, 19.9% and 15.7% TrackAP_50 on
TAO validation and test sets, respectively.
- Abstract(参考訳): 近年,長い尾の認識と物体追跡が個別に大きく進歩している。
TAOベンチマークは、2つの長い尾を持つ物体追跡の混合を示し、現実世界の側面をさらに反映した。
これまでのソリューションでは、長い尾の分布に堅牢性を示す検出器を採用しており、フレームごとの結果が導出されている。
そして、時間的に独立した検出を組み合わせてトラックレットをファイナライズする追跡アルゴリズムを使用した。
しかし,この手法はシーンの時間的変化を考慮に入れなかったため,ビデオの非一貫性な分類結果が全体の性能を低下させた。
本稿では,トラックレットに含まれる複数の視点から情報を集約することで,トラックレットの分類精度を向上させる集合分類器を提案する。
ビデオ中のスパースアノテーションに対処するため,データ効率を最大化できるトラックレットの拡張を提案する。
セット分類器は既存のオブジェクトトラッカにプラグイン・アンド・プレイ可能であり、ロングテールオブジェクトトラッキングの性能が大幅に向上する。
ResNet-101の上のQDTrackにメソッドをアタッチするだけで、TAO検証とテストセットでそれぞれ19.9%と15.7%のTrackAP_50という新しい最先端を実現できます。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Multi-Object Tracking and Segmentation with a Space-Time Memory Network [12.043574473965318]
トラックレットを関連づける新しいメモリベース機構に基づく多目的追跡とセグメンテーションの手法を提案する。
提案するトラッカーであるMeNToSは、特に長期データアソシエーションの問題に対処する。
論文 参考訳(メタデータ) (2021-10-21T17:13:17Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - End-to-End Multi-Object Tracking with Global Response Map [23.755882375664875]
画像シーケンス/映像を入力とし、学習対象の位置と追跡対象を直接出力する、完全にエンドツーエンドのアプローチを提案する。
具体的には,提案した多目的表現戦略により,グローバル応答マップをフレーム上で正確に生成することができる。
MOT16 と MOT17 のベンチマークによる実験結果から,提案したオンライントラッカーは,いくつかのトラッキング指標において最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-07-13T12:30:49Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。