論文の概要: MOD-UV: Learning Mobile Object Detectors from Unlabeled Videos
- arxiv url: http://arxiv.org/abs/2405.14841v3
- Date: Wed, 31 Jul 2024 04:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 13:17:29.850392
- Title: MOD-UV: Learning Mobile Object Detectors from Unlabeled Videos
- Title(参考訳): MOD-UV:未ラベルビデオからモバイルオブジェクト検出器を学習する
- Authors: Yihong Sun, Bharath Hariharan,
- Abstract要約: 身体的エージェントは、例えば自動運転車の交通参加者など、興味のある対象を検出し、ローカライズする必要がある。
未ラベル映像から学習した移動物体検出器MOD-UVを提案する。
オープン, nuScenes, KITTIデータセット上での教師なし移動体検出における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 34.24947555223083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents must detect and localize objects of interest, e.g. traffic participants for self-driving cars. Supervision in the form of bounding boxes for this task is extremely expensive. As such, prior work has looked at unsupervised instance detection and segmentation, but in the absence of annotated boxes, it is unclear how pixels must be grouped into objects and which objects are of interest. This results in over-/under-segmentation and irrelevant objects. Inspired by human visual system and practical applications, we posit that the key missing cue for unsupervised detection is motion: objects of interest are typically mobile objects that frequently move and their motions can specify separate instances. In this paper, we propose MOD-UV, a Mobile Object Detector learned from Unlabeled Videos only. We begin with instance pseudo-labels derived from motion segmentation, but introduce a novel training paradigm to progressively discover small objects and static-but-mobile objects that are missed by motion segmentation. As a result, though only learned from unlabeled videos, MOD-UV can detect and segment mobile objects from a single static image. Empirically, we achieve state-of-the-art performance in unsupervised mobile object detection on Waymo Open, nuScenes, and KITTI Datasets without using any external data or supervised models. Code is available at https://github.com/YihongSun/MOD-UV.
- Abstract(参考訳): エージェントは、例えば自動運転車の交通参加者など、興味のある対象を検出し、ローカライズする必要がある。
このタスクのバウンディングボックスという形でのスーパービジョンは非常に高価です。
このように、事前の研究では教師なしのインスタンス検出とセグメンテーションが検討されているが、注釈付きボックスが存在しないため、どのようにピクセルをオブジェクトに分類し、どのオブジェクトが興味を持つかは明らかでない。
これにより、オーバー/アンダー・セグメンテーションと無関係なオブジェクトが生成される。
人間の視覚システムと実用的な応用に触発されて、教師なし検出の鍵を欠いたキューは動きである、と仮定する: 興味のあるオブジェクトは、通常、頻繁に動く移動物体であり、動きは別々のインスタンスを指定できる。
本稿では,未ラベルビデオのみから学習した移動体検出器MOD-UVを提案する。
動作セグメンテーションから派生した擬似ラベルから始めるが、動きセグメンテーションによって欠落する小さな物体や静的な移動物体を段階的に発見する新しい訓練パラダイムを導入する。
その結果、ラベル付けされていないビデオからしか学ばないが、MOD-UVは単一の静的画像からモバイルオブジェクトを検出し、セグメンテーションすることができる。
Waymo Open, nuScenes, およびKITTIデータセット上で, 外部データや教師付きモデルを用いることなく, 教師なし移動体検出における最先端の性能を実証的に達成する。
コードはhttps://github.com/YihongSun/MOD-UV.comで入手できる。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Unsupervised Multi-object Segmentation by Predicting Probable Motion
Patterns [92.80981308407098]
手動による監督なしに複数の画像オブジェクトを分割する手法を提案する。
この方法は静止画像からオブジェクトを抽出するが、監視のためにビデオを使用する。
シミュレーションおよび実世界のベンチマークで、最先端の教師なしオブジェクトセグメンテーション性能を示す。
論文 参考訳(メタデータ) (2022-10-21T17:57:05Z) - MOVE: Unsupervised Movable Object Segmentation and Detection [32.73565093619594]
MOVEは、いかなる形態の監視もせずにオブジェクトを分割する手法である。
これは、前景のオブジェクトが初期位置に対して局所的に移動できるという事実を利用する。
SotAよりも平均で7.2%改善している。
論文 参考訳(メタデータ) (2022-10-14T16:05:46Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。