論文の概要: Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language
- arxiv url: http://arxiv.org/abs/2110.15358v1
- Date: Thu, 28 Oct 2021 17:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 14:13:34.810021
- Title: Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language
- Title(参考訳): 映像と言語からの微分物理モデル学習による動的視覚推論
- Authors: Mingyu Ding, Zhenfang Chen, Tao Du, Ping Luo, Joshua B. Tenenbaum,
Chuang Gan
- Abstract要約: 視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
- 参考スコア(独自算出の注目度): 92.7638697243969
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we propose a unified framework, called Visual Reasoning with
Differ-entiable Physics (VRDP), that can jointly learn visual concepts and
infer physics models of objects and their interactions from videos and
language. This is achieved by seamlessly integrating three components: a visual
perception module, a concept learner, and a differentiable physics engine. The
visual perception module parses each video frame into object-centric
trajectories and represents them as latent scene representations. The concept
learner grounds visual concepts (e.g., color, shape, and material) from these
object-centric representations based on the language, thus providing prior
knowledge for the physics engine. The differentiable physics model, implemented
as an impulse-based differentiable rigid-body simulator, performs
differentiable physical simulation based on the grounded concepts to infer
physical properties, such as mass, restitution, and velocity, by fitting the
simulated trajectories into the video observations. Consequently, these learned
concepts and physical models can explain what we have seen and imagine what is
about to happen in future and counterfactual scenarios. Integrating
differentiable physics into the dynamic reasoning framework offers several
appealing benefits. More accurate dynamics prediction in learned physics models
enables state-of-the-art performance on both synthetic and real-world
benchmarks while still maintaining high transparency and interpretability; most
notably, VRDP improves the accuracy of predictive and counterfactual questions
by 4.5% and 11.5% compared to its best counterpart. VRDP is also highly
data-efficient: physical parameters can be optimized from very few videos, and
even a single video can be sufficient. Finally, with all physical parameters
inferred, VRDP can quickly learn new concepts from a few examples.
- Abstract(参考訳): 本研究では、視覚概念を共同で学習し、オブジェクトの物理モデルとその相互作用をビデオや言語から推論できる、ビジュアル推論とディファエンタブル物理(VRDP)という統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
視覚知覚モジュールは、各ビデオフレームをオブジェクト中心の軌跡に解析し、潜時シーン表現として表現する。
概念学習者は、言語に基づくこれらの対象中心表現から視覚概念(色、形状、材料など)を基礎として、物理エンジンの事前知識を提供する。
インパルスベースで微分可能な剛体シミュレータとして実装された微分可能物理モデルは、映像観察にシミュレーションされた軌跡を組み込むことで、質量、再生、速度などの物理特性を推測する基礎概念に基づく微分可能物理シミュレーションを行う。
その結果、これらの学習された概念と物理モデルは、私たちが見たものを説明し、未来とカウンターファクトのシナリオで何が起こっているのかを想像することができる。
微分物理学を動的推論フレームワークに統合することは、いくつかの魅力的な利点をもたらす。
学習物理学モデルにおけるより正確なダイナミクス予測は、合成ベンチマークと実世界のベンチマークの両方において、高い透明性と解釈性を維持しながら、最先端のパフォーマンスを可能にする。
vrdpはデータ効率も高く、物理パラメータはごくわずかなビデオから最適化でき、1つのビデオでも十分です。
最後に、すべての物理パラメータを推測することで、VRDPはいくつかの例から新しい概念を素早く学習することができる。
関連論文リスト
- ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [90.97595947781426]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z) - Differentiable Dynamics for Articulated 3d Human Motion Reconstruction [29.683633237503116]
DiffPhyは、映像から3次元の人間の動きを再現する物理モデルである。
モノクロ映像から物理的に可視な3次元動作を正確に再現できることを実証し,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-05-24T17:58:37Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。