論文の概要: 1st Place Solution for CVPR2023 BURST Long Tail and Open World
Challenges
- arxiv url: http://arxiv.org/abs/2308.04598v1
- Date: Tue, 8 Aug 2023 21:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:50:59.216010
- Title: 1st Place Solution for CVPR2023 BURST Long Tail and Open World
Challenges
- Title(参考訳): cvpr2023のバーストロングテールとオープンワールドへの挑戦
- Authors: Kaer Huang
- Abstract要約: TAOとBURSTのデータセットがリリースされるにつれて、ビデオインスタンス(VIS)を長期的かつオープンなシナリオで研究する機会が得られます。
LVISv0.5とCOCOデータセットの組み合わせを反復係数サンプリングを用いて学習する。
私たちのメソッド(LeTracker)は、BURSTテストセットで14.9 HOTAallを取得し、ベンチマークで1位にランクインします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, Video Instance Segmentation (VIS) aims at segmenting and
categorizing objects in videos from a closed set of training categories that
contain only a few dozen of categories, lacking the ability to handle diverse
objects in real-world videos. As TAO and BURST datasets release, we have the
opportunity to research VIS in long-tailed and open-world scenarios.
Traditional VIS methods are evaluated on benchmarks limited to a small number
of common classes, But practical applications require trackers that go beyond
these common classes, detecting and tracking rare and even never-before-seen
objects. Inspired by the latest MOT paper for the long tail task (Tracking
Every Thing in the Wild, Siyuan Li et), for the BURST long tail challenge, we
train our model on a combination of LVISv0.5 and the COCO dataset using repeat
factor sampling. First, train the detector with segmentation and CEM on
LVISv0.5 + COCO dataset. And then, train the instance appearance similarity
head on the TAO dataset. at last, our method (LeTracker) gets 14.9 HOTAall in
the BURST test set, ranking 1st in the benchmark. for the open-world
challenges, we only use 64 classes (Intersection classes of BURST Train subset
and COCO dataset, without LVIS dataset) annotations data training, and testing
on BURST test set data and get 61.4 OWTAall, ranking 1st in the benchmark. Our
code will be released to facilitate future research.
- Abstract(参考訳): 現在、ビデオインスタンスセグメンテーション(vis)は、わずか数十のカテゴリを含むクローズドなトレーニングカテゴリから、ビデオ内のオブジェクトをセグメンテーションし、分類することを目的としている。
TAOとBURSTのデータセットがリリースされるにつれて、長い尾とオープンワールドのシナリオでVISを研究する機会が得られます。
従来のVISメソッドは、少数の共通クラスに限定されたベンチマークで評価されるが、実用的なアプリケーションでは、これらの共通クラスを越えて、稀で目に見えないオブジェクトを検出し、追跡するトラッカーが必要である。
ロングテールタスクのための最新のmot論文(野生のあらゆるものを追跡するsiyuan li et)にインスパイアされたburst long tail challengeでは、反復係数サンプリングを使用して、lvisv0.5とcocoデータセットの組み合わせでモデルをトレーニングします。
まず、LVISv0.5 + COCOデータセット上でセグメンテーションとCEMで検出器を訓練する。
そして、TAOデータセットでインスタンスの外観の類似性をトレーニングする。
最終的に、我々のメソッド(LeTracker)は、BURSTテストセットで14.9 HOTAallを獲得し、ベンチマークで1位になった。
オープンワールドの課題では、64クラス(BURST TrainサブセットのIntersectionクラスとCOCOデータセット、LVISデータセットなしで)のアノテーションデータトレーニングと、BURSTテストセットデータセット上でのテストのみを使用し、ベンチマークで1位となる61.4 OWTAallを取得します。
私たちのコードは将来の研究を促進するためにリリースされます。
関連論文リスト
- Plain-Det: A Plain Multi-Dataset Object Detector [22.848784430833835]
Plain-Detは、新しいデータセットに対応する柔軟性、さまざまなデータセットのパフォーマンス、トレーニング効率を提供する。
13の下流データセットに対して広範な実験を行い、Plain-Detは強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-07-14T05:18:06Z) - Instance Segmentation under Occlusions via Location-aware Copy-Paste
Data Augmentation [8.335108002480068]
MMSports 2023 DeepSportRadarは、バスケットボールのコンテキスト内での人間の対象のセグメンテーションに焦点を当てたデータセットを導入した。
この課題は、堅牢なデータ拡張技術と賢明なディープラーニングアーキテクチャの適用を必要とする。
我々の研究(コンペで1位)は、まず、より広い分布でより多くのトレーニングサンプルを生成することのできる、新しいデータ拡張技術を提案する。
論文 参考訳(メタデータ) (2023-10-27T07:44:25Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z) - Comprehensive Instructional Video Analysis: The COIN Dataset and
Performance Evaluation [100.68317848808327]
包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。
COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。
新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
論文 参考訳(メタデータ) (2020-03-20T16:59:44Z) - UnOVOST: Unsupervised Offline Video Object Segmentation and Tracking [23.326644949067145]
我々は,UnOVOST(Unsupervised Video Unsupervised Object Tracking)を,多種多様なオブジェクトの追跡とセグメント化が可能な,シンプルで汎用的なアルゴリズムとして提示する。
これを実現するために、新しいトラックレットベースのフォレストパスカットデータアソシエーションアルゴリズムを導入する。
DAVIS 2017でのアプローチを評価する際、教師なしのデータセットは、valで67.9%、test-devで58%、test-challengeベンチマークで56.4%の最先端のパフォーマンスを取得し、DAVIS 2019 Video Object Challengeで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-15T16:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。