論文の概要: PAI-Bench: A Comprehensive Benchmark For Physical AI
- arxiv url: http://arxiv.org/abs/2512.01989v1
- Date: Mon, 01 Dec 2025 18:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.028453
- Title: PAI-Bench: A Comprehensive Benchmark For Physical AI
- Title(参考訳): PAI-Bench:物理AIの総合ベンチマーク
- Authors: Fengzhe Zhou, Jiannan Huang, Jialuo Li, Deva Ramanan, Humphrey Shi,
- Abstract要約: ビデオ生成モデルは、物理的に一貫性のあるダイナミクスを維持するのに苦労することが多い。
マルチモーダルな大言語モデルは、予測と因果解釈において限られた性能を示す。
これらの観測は、現在のシステムは、物理AIの知覚的および予測的要求を扱う初期段階にあることを示唆している。
- 参考スコア(独自算出の注目度): 70.22914615084215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physical AI aims to develop models that can perceive and predict real-world dynamics; yet, the extent to which current multi-modal large language models and video generative models support these abilities is insufficiently understood. We introduce Physical AI Bench (PAI-Bench), a unified and comprehensive benchmark that evaluates perception and prediction capabilities across video generation, conditional video generation, and video understanding, comprising 2,808 real-world cases with task-aligned metrics designed to capture physical plausibility and domain-specific reasoning. Our study provides a systematic assessment of recent models and shows that video generative models, despite strong visual fidelity, often struggle to maintain physically coherent dynamics, while multi-modal large language models exhibit limited performance in forecasting and causal interpretation. These observations suggest that current systems are still at an early stage in handling the perceptual and predictive demands of Physical AI. In summary, PAI-Bench establishes a realistic foundation for evaluating Physical AI and highlights key gaps that future systems must address.
- Abstract(参考訳): 物理AIは、現実世界のダイナミクスを知覚し、予測できるモデルを開発することを目的としているが、現在のマルチモーダルな大規模言語モデルとビデオ生成モデルがこれらの能力をサポートする範囲は十分に理解されていない。
我々はPAI-Bench(PAI-Bench)という,映像生成,条件付き映像生成,映像理解における知覚と予測能力を評価する総合的ベンチマークを紹介した。
本研究は,映像生成モデルが強い視覚的忠実性にもかかわらず,物理コヒーレントなダイナミクスの維持に苦慮しているのに対して,マルチモーダルな大規模言語モデルは予測や因果解釈において限られた性能を示すことを示す。
これらの観測は、現在のシステムは、物理AIの知覚的および予測的要求を扱う初期段階にあることを示唆している。
まとめると、PAI-Benchは物理AIを評価するための現実的な基盤を確立し、将来のシステムが取り組まなければならない重要なギャップを強調します。
関連論文リスト
- WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models [17.757245394765807]
We introduced WorldBench, a video-based benchmark designed for concept-specific, disentangled evaluation。
WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価するための、より微妙でスケーラブルなフレームワークを提供する。
論文 参考訳(メタデータ) (2026-01-29T05:31:02Z) - Aligning Perception, Reasoning, Modeling and Interaction: A Survey on Physical AI [57.44526951497041]
我々は、物理的原則と具体的推論プロセスの両方において、学習の基礎となるインテリジェントなシステムを提唱する。
我々は、物理現象を説明でき、将来の状態を予測できる次世代の世界モデルを構想する。
論文 参考訳(メタデータ) (2025-10-06T16:16:03Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - Generative Physical AI in Vision: A Survey [78.07014292304373]
遺伝子人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
この変換は、現実的な画像、ビデオ、および3D/4Dコンテンツを生成するための生成モデルの基礎の上に構築されている。
生成モデルが進化して物理リアリズムと動的シミュレーションを統合するにつれ、「世界シミュレータ」として機能する可能性が拡大する。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - Towards Physically Interpretable World Models: Meaningful Weakly Supervised Representations for Visual Trajectory Prediction [0.1534667887016089]
本稿では,学習した潜在表現と実世界の物理量とを一致させる新しいアーキテクチャを提案する。
3つのケーススタディは,本手法が物理的解釈可能性および正確な状態予測を実現することを実証している。
論文 参考訳(メタデータ) (2024-12-17T12:51:24Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - Learning World Models With Hierarchical Temporal Abstractions: A Probabilistic Perspective [2.61072980439312]
内部世界モデルを開発するためのフォーマリズムの開発は、人工知能と機械学習の分野における重要な研究課題である。
この論文は、状態空間モデルを内部世界モデルとして広く用いられることによるいくつかの制限を識別する。
形式主義におけるモデルの構造は、信念の伝播を用いた正確な確率的推論を促進するとともに、時間を通してのバックプロパゲーションによるエンドツーエンドの学習を促進する。
これらの形式主義は、世界の状態における不確実性の概念を統合し、現実世界の性質をエミュレートし、その予測の信頼性を定量化する能力を向上させる。
論文 参考訳(メタデータ) (2024-04-24T12:41:04Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。