論文の概要: Motion-Refined DINOSAUR for Unsupervised Multi-Object Discovery
- arxiv url: http://arxiv.org/abs/2509.02545v1
- Date: Tue, 02 Sep 2025 17:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.131989
- Title: Motion-Refined DINOSAUR for Unsupervised Multi-Object Discovery
- Title(参考訳): 教師なし多目的発見のためのモーションリファインDINOSAUR
- Authors: Xinrui Gong, Oliver Hahn, Christoph Reich, Krishnakant Singh, Simone Schaub-Meyer, Daniel Cremers, Stefan Roth,
- Abstract要約: 教師なしマルチオブジェクト発見(MOD)は、人間の監督なしに視覚的な場面で異なるオブジェクトのインスタンスを検出し、ローカライズすることを目的としている。
近年のアプローチでは、オブジェクト中心学習(OCL)と動画からのモーションキューを活用して個々のオブジェクトを識別している。
MR-DINOSAURは,自己教師付きOCLモデルであるDINOSAURを,教師なしマルチオブジェクト発見のタスクに拡張する,最小限の教師なしアプローチである。
- 参考スコア(独自算出の注目度): 52.60873386395476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised multi-object discovery (MOD) aims to detect and localize distinct object instances in visual scenes without any form of human supervision. Recent approaches leverage object-centric learning (OCL) and motion cues from video to identify individual objects. However, these approaches use supervision to generate pseudo labels to train the OCL model. We address this limitation with MR-DINOSAUR -- Motion-Refined DINOSAUR -- a minimalistic unsupervised approach that extends the self-supervised pre-trained OCL model, DINOSAUR, to the task of unsupervised multi-object discovery. We generate high-quality unsupervised pseudo labels by retrieving video frames without camera motion for which we perform motion segmentation of unsupervised optical flow. We refine DINOSAUR's slot representations using these pseudo labels and train a slot deactivation module to assign slots to foreground and background. Despite its conceptual simplicity, MR-DINOSAUR achieves strong multi-object discovery results on the TRI-PD and KITTI datasets, outperforming the previous state of the art despite being fully unsupervised.
- Abstract(参考訳): 教師なしマルチオブジェクト発見(MOD)は、人間の監督なしに視覚的な場面で異なるオブジェクトのインスタンスを検出し、ローカライズすることを目的としている。
近年のアプローチでは、オブジェクト中心学習(OCL)と動画からのモーションキューを活用して個々のオブジェクトを識別している。
しかし、これらの手法は、OCLモデルをトレーニングするために擬似ラベルを生成するために監督を用いる。
この制限をMR-DINOSAUR -- Motion-Refined DINOSAUR - 自己教師付き事前学習型OCLモデルであるDINOSAURを非教師付きマルチオブジェクト発見のタスクに拡張する最小限の教師なしアプローチで解決する。
我々は、教師なし光流の動作セグメンテーションを行うカメラモーションなしでビデオフレームを検索することで、高品質な教師なし擬似ラベルを生成する。
我々はこれらの擬似ラベルを用いてDINOSAURのスロット表現を洗練し、スロット不活性化モジュールをトレーニングし、前景と背景にスロットを割り当てる。
その概念的単純さにもかかわらず、MR-DINOSAURはTRI-PDおよびKITTIデータセット上で強力な多目的発見結果を達成する。
関連論文リスト
- Lightweight Multi-Frame Integration for Robust YOLO Object Detection in Videos [11.532574301455854]
マルチフレームビデオオブジェクト検出のための高効率な手法を提案する。
我々の手法は、特に軽量モデルにおいて堅牢性を改善する。
我々はBOAT360ベンチマークデータセットを寄贈し、現実のシナリオに挑戦するマルチフレームビデオオブジェクト検出における将来の研究を支援する。
論文 参考訳(メタデータ) (2025-06-25T15:49:07Z) - C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文 参考訳(メタデータ) (2025-02-27T08:21:03Z) - Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。
我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。
公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-12-22T03:25:43Z) - Un-EVIMO: Unsupervised Event-Based Independent Motion Segmentation [29.557103057014988]
イベントカメラは、高時間分解能、高ダイナミックレンジ、低消費電力で知られている、生物学的にインスパイアされた新しいタイプの視覚センサである。
幾何学的制約を用いたIMO擬似ラベルを生成する最初のイベントフレームワークを提案する。
この手法は教師なしの性質のため、任意の数の未定オブジェクトを処理でき、高価なIMOラベルが手に入らないデータセットに容易に拡張できる。
論文 参考訳(メタデータ) (2023-11-30T18:59:32Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。