Fugu-MT 論文翻訳(概要): X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events

論文の概要: X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events

arxiv url: http://arxiv.org/abs/2308.10441v1
Date: Mon, 21 Aug 2023 03:28:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 15:18:02.069258
Title: X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events
Title（参考訳）: x-voe: 物理的事象における期待の説明的違反の測定
Authors: Bo Dai, Linge Wang, Baoxiong Jia, Zeyu Zhang, Song-Chun Zhu, Chi Zhang, Yixin Zhu
Abstract要約: 本研究では,AIエージェントによる直感的な物理の把握を評価するベンチマークデータセットであるX-VoEを紹介する。 X-VoEは直感的な物理モデルの説明能力を高めるためのより高いバーを確立する。本稿では、物理力学を捉え、隠蔽対象状態を推定する説明に基づく学習システムを提案する。
参考スコア（独自算出の注目度）: 75.94926117990435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intuitive physics is pivotal for human understanding of the physical world, enabling prediction and interpretation of events even in infancy. Nonetheless, replicating this level of intuitive physics in artificial intelligence (AI) remains a formidable challenge. This study introduces X-VoE, a comprehensive benchmark dataset, to assess AI agents' grasp of intuitive physics. Built on the developmental psychology-rooted Violation of Expectation (VoE) paradigm, X-VoE establishes a higher bar for the explanatory capacities of intuitive physics models. Each VoE scenario within X-VoE encompasses three distinct settings, probing models' comprehension of events and their underlying explanations. Beyond model evaluation, we present an explanation-based learning system that captures physics dynamics and infers occluded object states solely from visual sequences, without explicit occlusion labels. Experimental outcomes highlight our model's alignment with human commonsense when tested against X-VoE. A remarkable feature is our model's ability to visually expound VoE events by reconstructing concealed scenes. Concluding, we discuss the findings' implications and outline future research directions. Through X-VoE, we catalyze the advancement of AI endowed with human-like intuitive physics capabilities.
Abstract（参考訳）: 直観物理学は物理的世界に対する人間の理解にとって重要なものであり、幼少期でさえ出来事の予測と解釈を可能にする。それでも、このレベルの直感的な物理学を人工知能(AI)で再現することは、まだまだ難しい課題だ。本研究では,aiエージェントによる直感的物理学の把握を評価するために,総合ベンチマークデータセットであるx-voeを導入する。発達心理学に基づく期待の違反(voe)パラダイムに基づいて、x-voeは直感的物理学モデルの説明能力のより高いバーを確立する。 X-VoE内の各VoEシナリオは、3つの異なる設定を含んでおり、モデルによるイベントの理解とその基礎となる説明を探索している。モデル評価以外にも, 物理力学をキャプチャし, 明示的なオクルージョンラベルを使わずに, 視覚シーケンスのみからオクルードされた物体状態を推定する説明ベース学習システムを提案する。実験結果は、X-VoEに対してテストした場合、モデルと人間の常識との整合性を強調します。特筆すべき特徴は、隠れたシーンを再構築することでVoEイベントを視覚的に説明できることです。結論として,調査結果の意義を議論し,今後の研究の方向性を概説する。 X-VoEを通じて、人間のような直感的な物理能力を備えたAIの進歩を触媒する。

関連論文リスト

Intuitive physics understanding emerges from self-supervised pretraining on natural videos [39.030105916720835]
自然映像におけるマスキング領域の予測を訓練したディープニューラルネットワークモデルにおける直感的な物理理解の出現について検討する。学習された表現空間における結果を予測するために訓練された映像予測モデルは、様々な直感的な物理特性の理解を示す。
論文参考訳（メタデータ） (2025-02-17T14:27:14Z)
Generative Physical AI in Vision: A Survey [78.07014292304373]
遺伝子人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。この変換は、現実的な画像、ビデオ、および3D/4Dコンテンツを生成するための生成モデルの基礎の上に構築されている。生成モデルが進化して物理リアリズムと動的シミュレーションを統合するにつれ、「世界シミュレータ」として機能する可能性が拡大する。
論文参考訳（メタデータ） (2025-01-19T03:19:47Z)
Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文参考訳（メタデータ） (2024-06-18T16:37:44Z)
ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文参考訳（メタデータ） (2024-02-09T01:09:21Z)
3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文参考訳（メタデータ） (2023-04-22T19:28:49Z)
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文参考訳（メタデータ） (2021-10-28T17:59:13Z)
Physion: Evaluating Physical Prediction from Vision in Humans and Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文参考訳（メタデータ） (2021-06-15T16:13:39Z)
Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文参考訳（メタデータ） (2020-04-28T17:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。