論文の概要: Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language
- arxiv url: http://arxiv.org/abs/2110.15358v1
- Date: Thu, 28 Oct 2021 17:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 14:13:34.810021
- Title: Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language
- Title(参考訳): 映像と言語からの微分物理モデル学習による動的視覚推論
- Authors: Mingyu Ding, Zhenfang Chen, Tao Du, Ping Luo, Joshua B. Tenenbaum,
Chuang Gan
- Abstract要約: 視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
- 参考スコア(独自算出の注目度): 92.7638697243969
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we propose a unified framework, called Visual Reasoning with
Differ-entiable Physics (VRDP), that can jointly learn visual concepts and
infer physics models of objects and their interactions from videos and
language. This is achieved by seamlessly integrating three components: a visual
perception module, a concept learner, and a differentiable physics engine. The
visual perception module parses each video frame into object-centric
trajectories and represents them as latent scene representations. The concept
learner grounds visual concepts (e.g., color, shape, and material) from these
object-centric representations based on the language, thus providing prior
knowledge for the physics engine. The differentiable physics model, implemented
as an impulse-based differentiable rigid-body simulator, performs
differentiable physical simulation based on the grounded concepts to infer
physical properties, such as mass, restitution, and velocity, by fitting the
simulated trajectories into the video observations. Consequently, these learned
concepts and physical models can explain what we have seen and imagine what is
about to happen in future and counterfactual scenarios. Integrating
differentiable physics into the dynamic reasoning framework offers several
appealing benefits. More accurate dynamics prediction in learned physics models
enables state-of-the-art performance on both synthetic and real-world
benchmarks while still maintaining high transparency and interpretability; most
notably, VRDP improves the accuracy of predictive and counterfactual questions
by 4.5% and 11.5% compared to its best counterpart. VRDP is also highly
data-efficient: physical parameters can be optimized from very few videos, and
even a single video can be sufficient. Finally, with all physical parameters
inferred, VRDP can quickly learn new concepts from a few examples.
- Abstract(参考訳): 本研究では、視覚概念を共同で学習し、オブジェクトの物理モデルとその相互作用をビデオや言語から推論できる、ビジュアル推論とディファエンタブル物理(VRDP)という統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
視覚知覚モジュールは、各ビデオフレームをオブジェクト中心の軌跡に解析し、潜時シーン表現として表現する。
概念学習者は、言語に基づくこれらの対象中心表現から視覚概念(色、形状、材料など)を基礎として、物理エンジンの事前知識を提供する。
インパルスベースで微分可能な剛体シミュレータとして実装された微分可能物理モデルは、映像観察にシミュレーションされた軌跡を組み込むことで、質量、再生、速度などの物理特性を推測する基礎概念に基づく微分可能物理シミュレーションを行う。
その結果、これらの学習された概念と物理モデルは、私たちが見たものを説明し、未来とカウンターファクトのシナリオで何が起こっているのかを想像することができる。
微分物理学を動的推論フレームワークに統合することは、いくつかの魅力的な利点をもたらす。
学習物理学モデルにおけるより正確なダイナミクス予測は、合成ベンチマークと実世界のベンチマークの両方において、高い透明性と解釈性を維持しながら、最先端のパフォーマンスを可能にする。
vrdpはデータ効率も高く、物理パラメータはごくわずかなビデオから最適化でき、1つのビデオでも十分です。
最後に、すべての物理パラメータを推測することで、VRDPはいくつかの例から新しい概念を素早く学習することができる。
関連論文リスト
- PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion [35.71595369663293]
ビデオ拡散モデルを用いて3Dオブジェクトの様々な物理的特性を学習する新しい手法である textbfPhysics3D を提案する。
本手法では,粘弾性材料モデルに基づく高一般化物理シミュレーションシステムを設計する。
弾性材料とプラスチック材料の両方を用いて, 本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-06-06T17:59:47Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z) - Differentiable Dynamics for Articulated 3d Human Motion Reconstruction [29.683633237503116]
DiffPhyは、映像から3次元の人間の動きを再現する物理モデルである。
モノクロ映像から物理的に可視な3次元動作を正確に再現できることを実証し,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-05-24T17:58:37Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。