論文の概要: Object-centric Video Prediction without Annotation
- arxiv url: http://arxiv.org/abs/2105.02799v1
- Date: Thu, 6 May 2021 16:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:16:56.144726
- Title: Object-centric Video Prediction without Annotation
- Title(参考訳): アノテーションなしのオブジェクト中心ビデオ予測
- Authors: Karl Schmeckpeper, Georgios Georgakis, Kostas Daniilidis
- Abstract要約: 本稿では,強力なコンピュータビジョンモデルの事前情報を利用した物体中心映像予測手法を提案する。
本手法は,落下する重ね合わせ物体の映像列からなるデータセット上で検証し,環境における知覚モデルの適用方法を示す。
- 参考スコア(独自算出の注目度): 48.275024609940424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to interact with the world, agents must be able to predict the
results of the world's dynamics. A natural approach to learn about these
dynamics is through video prediction, as cameras are ubiquitous and powerful
sensors. Direct pixel-to-pixel video prediction is difficult, does not take
advantage of known priors, and does not provide an easy interface to utilize
the learned dynamics. Object-centric video prediction offers a solution to
these problems by taking advantage of the simple prior that the world is made
of objects and by providing a more natural interface for control. However,
existing object-centric video prediction pipelines require dense object
annotations in training video sequences. In this work, we present
Object-centric Prediction without Annotation (OPA), an object-centric video
prediction method that takes advantage of priors from powerful computer vision
models. We validate our method on a dataset comprised of video sequences of
stacked objects falling, and demonstrate how to adapt a perception model in an
environment through end-to-end video prediction training.
- Abstract(参考訳): 世界と相互作用するために、エージェントは世界のダイナミクスの結果を予測できなければならない。
これらのダイナミクスを学ぶ自然なアプローチは、カメラがユビキタスで強力なセンサーであるため、ビデオ予測である。
ピクセル間直接の映像予測は困難であり、既知の事前処理を活用せず、学習したダイナミクスを利用するための簡単なインターフェースを提供していない。
オブジェクト中心のビデオ予測は、世界がオブジェクトで構成されているという単純な事前の利点を生かし、制御のためのより自然なインターフェースを提供することによって、これらの問題の解決策を提供する。
しかし、既存のオブジェクト中心のビデオ予測パイプラインは、ビデオシーケンスのトレーニングに密接なオブジェクトアノテーションを必要とする。
本稿では,強力なコンピュータビジョンモデルからの事前情報を利用した物体中心映像予測手法であるopa(object-centric prediction without annotation)を提案する。
本手法は,落下する重ね合わせ物体の映像列からなるデータセット上で検証し,エンド・ツー・エンドの映像予測トレーニングにより環境に知覚モデルを適用する方法を示す。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Learning Physical Dynamics for Object-centric Visual Prediction [7.395357888610685]
視覚シーンの基盤となるダイナミクスをモデル化し、未来についての理屈をモデル化する能力は、人間の知性の中心である。
本稿では,オブジェクト間の視覚的ダイナミクスを学習することにより,将来予測を行う,教師なしオブジェクト中心予測モデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:45:25Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Object-Centric Video Prediction via Decoupling of Object Dynamics and
Interactions [27.112210225969733]
本稿では,映像系列の構造を抽出し,オブジェクトのダイナミックスやインタラクションを視覚的観察からモデル化する,オブジェクト中心のビデオ予測タスクのための新しいフレームワークを提案する。
そこで本研究では,時間的ダイナミクスとオブジェクトの相互作用の処理を分離した2つのオブジェクト中心ビデオ予測器(OCVP)トランスフォーマモジュールを提案する。
実験では、OCVP予測器を用いたオブジェクト中心の予測フレームワークが、2つの異なるデータセットにおけるオブジェクト非依存のビデオ予測モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T08:29:26Z) - Stochastic Video Prediction with Structure and Motion [14.424465835834042]
本稿では,映像観察を静的・動的成分に分解する手法を提案する。
前景と背景の変化の分布を別々に学習することで、シーンを静的と動的に分解することができる。
我々の実験は、遠心構造と動きが映像の予測に役立ち、複雑な運転シナリオにおける将来の予測に繋がることを示した。
論文 参考訳(メタデータ) (2022-03-20T11:29:46Z) - Understanding Object Dynamics for Interactive Image-to-Video Synthesis [8.17925295907622]
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
論文 参考訳(メタデータ) (2021-06-21T17:57:39Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - AutoTrajectory: Label-free Trajectory Extraction and Prediction from
Videos using Dynamic Points [92.91569287889203]
軌道抽出と予測のための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。
動画中の移動物体をよりよく捉えるために,ダイナミックポイントを導入する。
ビデオ内の歩行者などの移動物体を表すインスタンスポイントに動的ポイントを集約する。
論文 参考訳(メタデータ) (2020-07-11T08:43:34Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。