論文の概要: Occlusion resistant learning of intuitive physics from videos
- arxiv url: http://arxiv.org/abs/2005.00069v1
- Date: Thu, 30 Apr 2020 19:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:49:03.401400
- Title: Occlusion resistant learning of intuitive physics from videos
- Title(参考訳): ビデオからの直感的物理の咬合抵抗学習
- Authors: Ronan Riochet, Josef Sivic, Ivan Laptev and Emmanuel Dupoux
- Abstract要約: 人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
- 参考スコア(独自算出の注目度): 52.25308231683798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reach human performance on complex tasks, a key ability for artificial
systems is to understand physical interactions between objects, and predict
future outcomes of a situation. This ability, often referred to as intuitive
physics, has recently received attention and several methods were proposed to
learn these physical rules from video sequences. Yet, most of these methods are
restricted to the case where no, or only limited, occlusions occur. In this
work we propose a probabilistic formulation of learning intuitive physics in 3D
scenes with significant inter-object occlusions. In our formulation, object
positions are modeled as latent variables enabling the reconstruction of the
scene. We then propose a series of approximations that make this problem
tractable. Object proposals are linked across frames using a combination of a
recurrent interaction network, modeling the physics in object space, and a
compositional renderer, modeling the way in which objects project onto pixel
space. We demonstrate significant improvements over state-of-the-art in the
intuitive physics benchmark of IntPhys. We apply our method to a second dataset
with increasing levels of occlusions, showing it realistically predicts
segmentation masks up to 30 frames in the future. Finally, we also show results
on predicting motion of objects in real videos.
- Abstract(参考訳): 複雑なタスクでのヒューマンパフォーマンスを達成するために、人工知能の重要な能力は、オブジェクト間の物理的相互作用を理解し、状況の将来の結果を予測することである。
この能力は直感物理学と呼ばれ、近年注目され、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
しかし、これらの手法のほとんどは、排他的または限定的な排他的でない場合に限られる。
本研究では,物体間オクルージョンを有する3次元シーンにおける直観的物理学習の確率論的定式化を提案する。
提案手法では,オブジェクトの位置を潜在変数としてモデル化し,シーンの再構成を可能にする。
次に、この問題を抽出可能な一連の近似を提案する。
オブジェクトの提案は、リカレントなインタラクションネットワーク、オブジェクト空間における物理のモデリング、および、オブジェクトがピクセル空間に投影される方法をモデル化する合成レンダラーの組み合わせを使って、フレーム間でリンクされる。
IntPhysの直感的物理ベンチマークにおいて,最先端技術に対する大幅な改善を示す。
本手法は咬合レベルが増加する第2データセットに適用し,今後最大30フレームまでのセグメンテーションマスクを現実的に予測する。
最後に,実際の映像における物体の動きの予測結果を示す。
関連論文リスト
- Automated 3D Physical Simulation of Open-world Scene with Gaussian Splatting [22.40115216094332]
Sim Anythingは、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える物理ベースのアプローチである。
人間の視覚的推論に触発されて,MLLMに基づく物理特性知覚を提案する。
また、物理幾何学的適応サンプリングを用いて粒子をサンプリングして、オープンワールドシーンでオブジェクトをシミュレートする。
論文 参考訳(メタデータ) (2024-11-19T12:52:21Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Trajectory Optimization for Physics-Based Reconstruction of 3d Human
Pose from Monocular Video [31.96672354594643]
本研究は,単眼映像から身体的に可視な人間の動きを推定する作業に焦点をあてる。
物理を考慮しない既存のアプローチは、しばしば運動人工物と時間的に矛盾した出力を生み出す。
提案手法は,Human3.6Mベンチマークにおける既存の物理法と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-24T18:02:49Z) - Differentiable Dynamics for Articulated 3d Human Motion Reconstruction [29.683633237503116]
DiffPhyは、映像から3次元の人間の動きを再現する物理モデルである。
モノクロ映像から物理的に可視な3次元動作を正確に再現できることを実証し,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-05-24T17:58:37Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Towards an Interpretable Latent Space in Structured Models for Video
Prediction [30.080907495461876]
基礎となる物理力学が支配するビデオにおける将来のフレーム予測の課題に焦点をあてる。
我々は、オブジェクト中心のモデル、すなわち、オブジェクト表現を明示的に扱うモデルで作業し、潜在空間における損失を伝播する。
論文 参考訳(メタデータ) (2021-07-16T05:37:16Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。