論文の概要: Use the Force, Luke! Learning to Predict Physical Forces by Simulating
Effects
- arxiv url: http://arxiv.org/abs/2003.12045v1
- Date: Thu, 26 Mar 2020 17:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:41:47.130867
- Title: Use the Force, Luke! Learning to Predict Physical Forces by Simulating
Effects
- Title(参考訳): 力を使って、ルーク!
効果のシミュレーションによる身体力予測の学習
- Authors: Kiana Ehsani, Shubham Tulsiani, Saurabh Gupta, Ali Farhadi, Abhinav
Gupta
- Abstract要約: 物体と相互作用する人間の映像から接触点と物理的力の推測の問題に対処する。
具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。
- 参考スコア(独自算出の注目度): 79.351446087227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When we humans look at a video of human-object interaction, we can not only
infer what is happening but we can even extract actionable information and
imitate those interactions. On the other hand, current recognition or geometric
approaches lack the physicality of action representation. In this paper, we
take a step towards a more physical understanding of actions. We address the
problem of inferring contact points and the physical forces from videos of
humans interacting with objects. One of the main challenges in tackling this
problem is obtaining ground-truth labels for forces. We sidestep this problem
by instead using a physics simulator for supervision. Specifically, we use a
simulator to predict effects and enforce that estimated forces must lead to the
same effect as depicted in the video. Our quantitative and qualitative results
show that (a) we can predict meaningful forces from videos whose effects lead
to accurate imitation of the motions observed, (b) by jointly optimizing for
contact point and force prediction, we can improve the performance on both
tasks in comparison to independent training, and (c) we can learn a
representation from this model that generalizes to novel objects using few shot
examples.
- Abstract(参考訳): 人間と物体の相互作用のビデオを見ると、何が起きているのかを推測するだけでなく、実行可能な情報を抽出し、それらの相互作用を模倣することもできる。
一方、現在の認識や幾何学的アプローチでは、行動表現の物理性が欠如している。
本稿では,アクションをより物理的に理解するための一歩を踏み出す。
本稿では,物体と対話する人間の映像から接触点や物理的力を推測する問題に対処する。
この問題に取り組む上での最大の課題のひとつは、力の接地ラベルを得ることである。
我々は、物理シミュレーターを監督に利用することで、この問題を横取りする。
具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。
我々の量的および質的な結果は、
(a)観察した動きの正確な模倣につながる映像から有意義な力を予測することができる。
(b)接触点と力予測を共同で最適化することで、独立訓練と比較して両タスクのパフォーマンスを向上させることができる。
(c) 少数ショット例を用いて,新しいオブジェクトに一般化したモデルから表現を学ぶことができる。
関連論文リスト
- MultiPhys: Multi-Person Physics-aware 3D Motion Estimation [28.91813849219037]
モノクロビデオから多人数動作を復元する手法であるMultiPhysを紹介する。
私たちの焦点は、様々なエンゲージメントの度合いで、ペアの個人間のコヒーレントな空間配置をキャプチャすることにあります。
本研究では,運動量に基づく運動を物理シミュレーターに自動回帰的に供給するパイプラインを考案する。
論文 参考訳(メタデータ) (2024-04-18T08:29:29Z) - PhysPT: Physics-aware Pretrained Transformer for Estimating Human Dynamics from Monocular Videos [29.784542628690794]
本稿では、運動量に基づく運動推定を改善し、運動力を推定する物理対応事前学習変換器(PhysPT)を提案する。
PhysPTはTransformerエンコーダ/デコーダのバックボーンを利用して、自己管理的な方法で人間のダイナミクスを効果的に学習する。
論文 参考訳(メタデータ) (2024-04-05T22:07:25Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。