論文の概要: Use the Force, Luke! Learning to Predict Physical Forces by Simulating
Effects
- arxiv url: http://arxiv.org/abs/2003.12045v1
- Date: Thu, 26 Mar 2020 17:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:41:47.130867
- Title: Use the Force, Luke! Learning to Predict Physical Forces by Simulating
Effects
- Title(参考訳): 力を使って、ルーク!
効果のシミュレーションによる身体力予測の学習
- Authors: Kiana Ehsani, Shubham Tulsiani, Saurabh Gupta, Ali Farhadi, Abhinav
Gupta
- Abstract要約: 物体と相互作用する人間の映像から接触点と物理的力の推測の問題に対処する。
具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。
- 参考スコア(独自算出の注目度): 79.351446087227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When we humans look at a video of human-object interaction, we can not only
infer what is happening but we can even extract actionable information and
imitate those interactions. On the other hand, current recognition or geometric
approaches lack the physicality of action representation. In this paper, we
take a step towards a more physical understanding of actions. We address the
problem of inferring contact points and the physical forces from videos of
humans interacting with objects. One of the main challenges in tackling this
problem is obtaining ground-truth labels for forces. We sidestep this problem
by instead using a physics simulator for supervision. Specifically, we use a
simulator to predict effects and enforce that estimated forces must lead to the
same effect as depicted in the video. Our quantitative and qualitative results
show that (a) we can predict meaningful forces from videos whose effects lead
to accurate imitation of the motions observed, (b) by jointly optimizing for
contact point and force prediction, we can improve the performance on both
tasks in comparison to independent training, and (c) we can learn a
representation from this model that generalizes to novel objects using few shot
examples.
- Abstract(参考訳): 人間と物体の相互作用のビデオを見ると、何が起きているのかを推測するだけでなく、実行可能な情報を抽出し、それらの相互作用を模倣することもできる。
一方、現在の認識や幾何学的アプローチでは、行動表現の物理性が欠如している。
本稿では,アクションをより物理的に理解するための一歩を踏み出す。
本稿では,物体と対話する人間の映像から接触点や物理的力を推測する問題に対処する。
この問題に取り組む上での最大の課題のひとつは、力の接地ラベルを得ることである。
我々は、物理シミュレーターを監督に利用することで、この問題を横取りする。
具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。
我々の量的および質的な結果は、
(a)観察した動きの正確な模倣につながる映像から有意義な力を予測することができる。
(b)接触点と力予測を共同で最適化することで、独立訓練と比較して両タスクのパフォーマンスを向上させることができる。
(c) 少数ショット例を用いて,新しいオブジェクトに一般化したモデルから表現を学ぶことができる。
関連論文リスト
- PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Trajectory Optimization for Physics-Based Reconstruction of 3d Human
Pose from Monocular Video [31.96672354594643]
本研究は,単眼映像から身体的に可視な人間の動きを推定する作業に焦点をあてる。
物理を考慮しない既存のアプローチは、しばしば運動人工物と時間的に矛盾した出力を生み出す。
提案手法は,Human3.6Mベンチマークにおける既存の物理法と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-24T18:02:49Z) - Neural MoCon: Neural Motion Control for Physically Plausible Human
Motion Capture [12.631678059354593]
我々は、高精度で微分不可能な物理シミュレータを利用して、モーションキャプチャーに動的制約を組み込む。
我々のキーイデアは、実際の物理的な監督を利用して、サンプリングベースのモーションコントロールの前にターゲットのポーズ分布をトレーニングすることです。
その結果, 複雑な地形相互作用, 人体形状の変化, 多様な行動を伴う身体的可視な人体運動が得られた。
論文 参考訳(メタデータ) (2022-03-26T12:48:41Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。