Fugu-MT 論文翻訳(概要): Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language

論文の概要: Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language

arxiv url: http://arxiv.org/abs/2110.15358v1
Date: Thu, 28 Oct 2021 17:59:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-29 14:13:34.810021
Title: Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language
Title（参考訳）: 映像と言語からの微分物理モデル学習による動的視覚推論
Authors: Mingyu Ding, Zhenfang Chen, Tao Du, Ping Luo, Joshua B. Tenenbaum, Chuang Gan
Abstract要約: 視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
参考スコア（独自算出の注目度）: 92.7638697243969
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this work, we propose a unified framework, called Visual Reasoning with Differ-entiable Physics (VRDP), that can jointly learn visual concepts and infer physics models of objects and their interactions from videos and language. This is achieved by seamlessly integrating three components: a visual perception module, a concept learner, and a differentiable physics engine. The visual perception module parses each video frame into object-centric trajectories and represents them as latent scene representations. The concept learner grounds visual concepts (e.g., color, shape, and material) from these object-centric representations based on the language, thus providing prior knowledge for the physics engine. The differentiable physics model, implemented as an impulse-based differentiable rigid-body simulator, performs differentiable physical simulation based on the grounded concepts to infer physical properties, such as mass, restitution, and velocity, by fitting the simulated trajectories into the video observations. Consequently, these learned concepts and physical models can explain what we have seen and imagine what is about to happen in future and counterfactual scenarios. Integrating differentiable physics into the dynamic reasoning framework offers several appealing benefits. More accurate dynamics prediction in learned physics models enables state-of-the-art performance on both synthetic and real-world benchmarks while still maintaining high transparency and interpretability; most notably, VRDP improves the accuracy of predictive and counterfactual questions by 4.5% and 11.5% compared to its best counterpart. VRDP is also highly data-efficient: physical parameters can be optimized from very few videos, and even a single video can be sufficient. Finally, with all physical parameters inferred, VRDP can quickly learn new concepts from a few examples.
Abstract（参考訳）: 本研究では、視覚概念を共同で学習し、オブジェクトの物理モデルとその相互作用をビデオや言語から推論できる、ビジュアル推論とディファエンタブル物理(VRDP)という統合フレームワークを提案する。これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。視覚知覚モジュールは、各ビデオフレームをオブジェクト中心の軌跡に解析し、潜時シーン表現として表現する。概念学習者は、言語に基づくこれらの対象中心表現から視覚概念(色、形状、材料など)を基礎として、物理エンジンの事前知識を提供する。インパルスベースで微分可能な剛体シミュレータとして実装された微分可能物理モデルは、映像観察にシミュレーションされた軌跡を組み込むことで、質量、再生、速度などの物理特性を推測する基礎概念に基づく微分可能物理シミュレーションを行う。その結果、これらの学習された概念と物理モデルは、私たちが見たものを説明し、未来とカウンターファクトのシナリオで何が起こっているのかを想像することができる。微分物理学を動的推論フレームワークに統合することは、いくつかの魅力的な利点をもたらす。学習物理学モデルにおけるより正確なダイナミクス予測は、合成ベンチマークと実世界のベンチマークの両方において、高い透明性と解釈性を維持しながら、最先端のパフォーマンスを可能にする。 vrdpはデータ効率も高く、物理パラメータはごくわずかなビデオから最適化でき、1つのビデオでも十分です。最後に、すべての物理パラメータを推測することで、VRDPはいくつかの例から新しい概念を素早く学習することができる。

関連論文リスト

VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。 VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-30T09:03:09Z)
PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos [21.441062722848265]
PhysTwinは、対話中の動的オブジェクトのスパースビデオを使用して、写真と物理的にリアルでリアルタイムなインタラクティブなレプリカを生成する新しいフレームワークである。提案手法は,(1)現実的な物理シミュレーションのためにバネ質量モデルを組み合わせた物理インフォームド表現,および幾何学のための生成形状モデル,およびレンダリングのためのガウススプラットである。本手法は,視覚的知覚の手がかりと逆物理の枠組みを統合し,部分的,隠蔽的,限定的な視点からでも高忠実度復元を可能にする。
論文参考訳（メタデータ） (2025-03-23T07:49:19Z)
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文参考訳（メタデータ） (2024-09-27T17:59:57Z)
Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文参考訳（メタデータ） (2024-06-18T16:37:44Z)
Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion [35.71595369663293]
ビデオ拡散モデルを用いて3Dオブジェクトの様々な物理的特性を学習する新しい手法である textbfPhysics3D を提案する。本手法では,粘弾性材料モデルに基づく高一般化物理シミュレーションシステムを設計する。弾性材料とプラスチック材料の両方を用いて, 本手法の有効性を実証した。
論文参考訳（メタデータ） (2024-06-06T17:59:47Z)
ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文参考訳（メタデータ） (2024-02-09T01:09:21Z)
Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文参考訳（メタデータ） (2023-03-29T17:59:53Z)
Differentiable Dynamics for Articulated 3d Human Motion Reconstruction [29.683633237503116]
DiffPhyは、映像から3次元の人間の動きを再現する物理モデルである。モノクロ映像から物理的に可視な3次元動作を正確に再現できることを実証し,本モデルの有効性を検証した。
論文参考訳（メタデータ） (2022-05-24T17:58:37Z)
Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文参考訳（メタデータ） (2020-04-30T19:35:54Z)
Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文参考訳（メタデータ） (2020-04-28T17:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。