論文の概要: Bridging Images and Videos: A Simple Learning Framework for Large
Vocabulary Video Object Detection
- arxiv url: http://arxiv.org/abs/2212.10147v1
- Date: Tue, 20 Dec 2022 10:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:24:35.606017
- Title: Bridging Images and Videos: A Simple Learning Framework for Large
Vocabulary Video Object Detection
- Title(参考訳): 画像と映像のブリッジ:大語彙ビデオオブジェクト検出のための簡単な学習フレームワーク
- Authors: Sanghyun Woo, Kwanyong Park, Seoung Wug Oh, In So Kweon, Joon-Young
Lee
- Abstract要約: 検出と追跡を学習するために、利用可能なすべてのトレーニングデータを最大限に活用する、シンプルだが効果的な学習フレームワークを提案する。
様々な大語彙トラッカーを一貫した改良が可能であることを示す。
- 参考スコア(独自算出の注目度): 110.08925274049409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling object taxonomies is one of the important steps toward a robust
real-world deployment of recognition systems. We have faced remarkable progress
in images since the introduction of the LVIS benchmark. To continue this
success in videos, a new video benchmark, TAO, was recently presented. Given
the recent encouraging results from both detection and tracking communities, we
are interested in marrying those two advances and building a strong large
vocabulary video tracker. However, supervisions in LVIS and TAO are inherently
sparse or even missing, posing two new challenges for training the large
vocabulary trackers. First, no tracking supervisions are in LVIS, which leads
to inconsistent learning of detection (with LVIS and TAO) and tracking (only
with TAO). Second, the detection supervisions in TAO are partial, which results
in catastrophic forgetting of absent LVIS categories during video fine-tuning.
To resolve these challenges, we present a simple but effective learning
framework that takes full advantage of all available training data to learn
detection and tracking while not losing any LVIS categories to recognize. With
this new learning scheme, we show that consistent improvements of various large
vocabulary trackers are capable, setting strong baseline results on the
challenging TAO benchmarks.
- Abstract(参考訳): オブジェクト分類のスケーリングは、認識システムの堅牢な実世界展開に向けた重要なステップの1つです。
LVISベンチマークの導入以降,画像の著しい進歩に直面している。
この成功をビデオで続けるために、新しいビデオベンチマークであるTAOが最近発表された。
検出と追跡のコミュニティからの最近の奨励的な結果を考えると、私たちはこの2つの進歩を結婚させ、強力な大語彙ビデオトラッカを構築することに興味があります。
しかし、lvisとtaoの監督は本質的に不足もしくは欠如しており、大きな語彙追跡者の訓練に2つの新たな課題をもたらしている。
第一に、LVISにはトラッキング監視が存在しないため、検出(LVISとTAOのみ)と追跡(TAOのみ)の一貫性のない学習につながる。
第2に,taoの検出監督は部分的であり,ビデオの微調整中にlvisカテゴリの欠落を壊滅的に忘れてしまう。
これらの課題を解決するために,我々はlvisカテゴリを失うことなく,利用可能なトレーニングデータをすべて活用して検出と追跡を学習する,シンプルかつ効果的な学習フレームワークを提案する。
この新たな学習手法により,様々な大語彙トラッカーの整合性向上が達成され,TAOベンチマークに強力なベースライン結果が得られた。
関連論文リスト
- COOLer: Class-Incremental Learning for Appearance-Based Multiple Object
Tracking [32.47215340215641]
本稿では,連続学習研究の範囲を,複数物体追跡(MOT)のためのクラス増分学習に拡張する。
オブジェクト検出器の連続学習のための従来のソリューションは、外見に基づくトラッカーのデータ関連ステージには対応していない。
我々は,Contrastive- and cOntinual-LearningベースのトラッカーであるCOOLerを紹介した。
論文 参考訳(メタデータ) (2023-10-04T17:49:48Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。
提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。
DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文 参考訳(メタデータ) (2021-02-03T20:00:44Z) - Unsupervised Deep Representation Learning for Real-Time Tracking [137.69689503237893]
視覚追跡のための教師なし学習手法を提案する。
教師なし学習の動機は、ロバストなトラッカーが双方向トラッキングに有効であるべきだということです。
我々は,シームズ相関フィルタネットワーク上にフレームワークを構築し,教師なし学習を容易にするために,多フレーム検証方式とコスト感受性損失を提案する。
論文 参考訳(メタデータ) (2020-07-22T08:23:12Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。