論文の概要: SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos
- arxiv url: http://arxiv.org/abs/2206.07764v1
- Date: Wed, 15 Jun 2022 18:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 14:56:41.231159
- Title: SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos
- Title(参考訳): SAVi++: 現実世界のビデオからエンドツーエンドのオブジェクト中心学習を目指す
- Authors: Gamaleldin F. Elsayed, Aravindh Mahendran, Sjoerd van Steenkiste,
Klaus Greff, Michael C. Mozer, Thomas Kipf
- Abstract要約: スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
LiDARから得られたスパースディープ信号を使用することで、SAVi++は現実世界のOpenデータセットで、創発的なオブジェクトセグメンテーションとビデオからのトラッキングを学習することができる。
- 参考スコア(独自算出の注目度): 23.64091569954785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual world can be parsimoniously characterized in terms of distinct
entities with sparse interactions. Discovering this compositional structure in
dynamic visual scenes has proven challenging for end-to-end computer vision
approaches unless explicit instance-level supervision is provided. Slot-based
models leveraging motion cues have recently shown great promise in learning to
represent, segment, and track objects without direct supervision, but they
still fail to scale to complex real-world multi-object videos. In an effort to
bridge this gap, we take inspiration from human development and hypothesize
that information about scene geometry in the form of depth signals can
facilitate object-centric learning. We introduce SAVi++, an object-centric
video model which is trained to predict depth signals from a slot-based video
representation. By further leveraging best practices for model scaling, we are
able to train SAVi++ to segment complex dynamic scenes recorded with moving
cameras, containing both static and moving objects of diverse appearance on
naturalistic backgrounds, without the need for segmentation supervision.
Finally, we demonstrate that by using sparse depth signals obtained from LiDAR,
SAVi++ is able to learn emergent object segmentation and tracking from videos
in the real-world Waymo Open dataset.
- Abstract(参考訳): 視覚世界はスパース相互作用を持つ異なる実体の言葉でパロニカルに特徴づけることができる。
この構成構造を動的視覚シーンで発見することは、明示的なインスタンスレベルの監督が提供されない限り、エンドツーエンドのコンピュータビジョンアプローチでは困難であることが証明された。
モーションキューを利用したスロットベースのモデルは最近、直接の監督なしでオブジェクトの表現、セグメント化、追跡を学べるという大きな期待を示しているが、それでも複雑な現実世界のマルチオブジェクトビデオにはスケールできない。
このギャップを埋めるために、私たちは人間の発達からインスピレーションを得て、深度信号の形でのシーン幾何学に関する情報がオブジェクト中心の学習を促進すると仮定します。
スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
モデルスケーリングのベストプラクティスをさらに活用することにより,SAVi++をトレーニングして,動作中のカメラで記録された複雑なダイナミックシーンをセグメント化することが可能になります。
最後に、LiDARから得られたスパースディープ信号を使用することで、SAVi++は、現実世界のWaymo Openデータセット内のビデオから創発的なオブジェクトセグメンテーションとトラッキングを学習できることを示した。
関連論文リスト
- Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models [28.304047711166056]
大規模事前訓練モデルでは、野生の2次元静的画像中の物体の検出とセグメンテーションの進歩が期待できる。
このような大規模なトレーニング済みの静的イメージモデルを,オープン語彙のビデオトラッキングに再利用することは可能だろうか?
本稿では,オープンボキャブラリ検出器,セグメンタ,高密度光流推定器を,任意のカテゴリの物体を2Dビデオで追跡・セグメント化するモデルに再構成する。
論文 参考訳(メタデータ) (2023-10-10T20:25:30Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Conditional Object-Centric Learning from Video [34.012087337046005]
我々は、リアルな合成シーンのための光の流れを予測するために、スロット注意を逐次拡張する。
我々は,このモデルの初期状態が,第1フレーム内の物体の質量の中心など,小さなヒントの集合に条件付けるだけで,インスタンスのセグメンテーションを大幅に改善できることを示す。
これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しいバックグラウンド、より長いビデオシーケンスに一般化される。
論文 参考訳(メタデータ) (2021-11-24T16:10:46Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。