論文の概要: ContPhy: Continuum Physical Concept Learning and Reasoning from Videos
- arxiv url: http://arxiv.org/abs/2402.06119v1
- Date: Fri, 9 Feb 2024 01:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:16:01.747496
- Title: ContPhy: Continuum Physical Concept Learning and Reasoning from Videos
- Title(参考訳): ContPhy: ビデオからの連続的物理概念学習と推論
- Authors: Zhicheng Zheng, Xin Yan, Zhenfang Chen, Jingzhou Wang, Qin Zhi Eddie
Lim, Joshua B. Tenenbaum, Chuang Gan
- Abstract要約: ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
- 参考スコア(独自算出の注目度): 90.97595947781426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Continuum Physical Dataset (ContPhy), a novel benchmark for
assessing machine physical commonsense. ContPhy complements existing physical
reasoning benchmarks by encompassing the inference of diverse physical
properties, such as mass and density, across various scenarios and predicting
corresponding dynamics. We evaluated a range of AI models and found that they
still struggle to achieve satisfactory performance on ContPhy, which shows that
the current AI models still lack physical commonsense for the continuum,
especially soft-bodies, and illustrates the value of the proposed dataset. We
also introduce an oracle model (ContPRO) that marries the particle-based
physical dynamic models with the recent large language models, which enjoy the
advantages of both models, precise dynamic predictions, and interpretable
reasoning. ContPhy aims to spur progress in perception and reasoning within
diverse physical settings, narrowing the divide between human and machine
intelligence in understanding the physical world. Project page:
https://physical-reasoning-project.github.io.
- Abstract(参考訳): 本稿では,機械物理常識を評価するための新しいベンチマークであるContinuum Physical Dataset(ContPhy)を紹介する。
contphyは、質量や密度といった様々な物理的性質を様々なシナリオで推測し、対応するダイナミクスを予測することによって、既存の物理推論ベンチマークを補完する。
私たちは、さまざまなAIモデルを評価し、ContPhy上での満足なパフォーマンスを達成するのに依然として苦労していることを発見し、現在のAIモデルは、継続体、特にソフトボディの物理的な常識を欠いていることを示し、提案されたデータセットの価値を説明している。
また、近年の大規模言語モデルと粒子ベースの物理力学モデルを組み合わせたオラクルモデル(ContPRO)を導入し、両方のモデル、正確な動的予測、解釈可能な推論の利点を享受する。
contphyは、様々な物理的環境における知覚と推論の進歩を促進し、物理的世界を理解する上で人間と機械の知性の間の隔たりを狭めることを目的としている。
プロジェクトページ: https://physical-reasoning-project.github.io
関連論文リスト
- LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - Physion++: Evaluating Physical Scene Understanding that Requires Online
Inference of Different Physical Properties [100.19685489335828]
この研究は、人工システムにおける視覚的身体的予測を厳格に評価する新しいデータセットとベンチマークであるPhysylon++を提案する。
正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存するシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
論文 参考訳(メタデータ) (2023-06-27T17:59:33Z) - A Benchmark for Modeling Violation-of-Expectation in Physical Reasoning
Across Event Categories [4.4920673251997885]
VoE(Violation-of-Expectation)は、期待されたシーンのみの知識で、期待されたシーンまたは驚きのシーンをラベル付けするために用いられる。
物理推論における既存のVoEベースの3Dデータセットは、ほとんど真実や帰納バイアスのない視覚データを提供する。
我々は、因果関係のある特徴と規則の基調ラベルを組み込んだ、新しい大規模合成3D VoEデータセットをキュレートすることで、身体的推論を研究するためのベンチマークを構築した。
論文 参考訳(メタデータ) (2021-11-16T22:59:25Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。