論文の概要: Order from Chaos: Physical World Understanding from Glitchy Gameplay Videos
- arxiv url: http://arxiv.org/abs/2601.16471v1
- Date: Fri, 23 Jan 2026 06:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.560157
- Title: Order from Chaos: Physical World Understanding from Glitchy Gameplay Videos
- Title(参考訳): カオスの秩序:ゲームプレイビデオから物理世界を理解する
- Authors: Meng Cao, Haoran Tang, Haoze Zhao, Mingfei Han, Ruyang Liu, Qiang Sun, Xiaojun Chang, Ian Reid, Xiaodan Liang,
- Abstract要約: 本稿では,物理世界理解のためのリッチでスケーラブルな監視源として,予め定義された物理法則に違反した視覚異常を参照しながら,ゲームプレイビデオのグリッチを利用する新しいパラダイムを提案する。
我々はPhysGameを紹介した。これは5つの物理ドメインと16のきめ細かいカテゴリからなる140,057のグリッチ中心の質問応答ペアを含むデータセットである。
実験の結果、PhysGameはGame2Realの転送性を大幅に向上させ、Qwen2.5VLの物理推論性能を2.5%向上させ、MVBenchベンチマークで1.9%向上した。
- 参考スコア(独自算出の注目度): 82.4003989236851
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the physical world, including object dynamics, material properties, and causal interactions, remains a core challenge in artificial intelligence. Although recent multi-modal large language models (MLLMs) have demonstrated impressive general reasoning capabilities, they still fall short of achieving human-level understanding of physical principles. Existing datasets for physical reasoning either rely on real-world videos, which incur high annotation costs, or on synthetic simulations, which suffer from limited realism and diversity. In this paper, we propose a novel paradigm that leverages glitches in gameplay videos, referring to visual anomalies that violate predefined physical laws, as a rich and scalable supervision source for physical world understanding. We introduce PhysGame, an meta information guided instruction-tuning dataset containing 140,057 glitch-centric question-answer pairs across five physical domains and sixteen fine-grained categories. To ensure data accuracy, we design a prompting strategy that utilizes gameplay metadata such as titles and descriptions to guide high-quality QA generation. Complementing PhysGame, we construct GameBench, an expert-annotated benchmark with 880 glitch-identified gameplay videos designed to evaluate physical reasoning capabilities. Extensive experiments show that PhysGame significantly enhances both Game2Real transferability, improving the real world physical reasoning performance of Qwen2.5VL by 2.5% on PhysBench, and Game2General transferability, yielding a 1.9% gain on the MVBench benchmark. Moreover, PhysGame-tuned models achieve a 3.7% absolute improvement on GameBench, demonstrating enhanced robustness in detecting physical implausibilities. These results indicate that learning from gameplay anomalies offers a scalable and effective pathway toward advancing physical world understanding in multimodal intelligence.
- Abstract(参考訳): 物体の動力学、物質特性、因果相互作用を含む物理世界を理解することは、人工知能における中核的な課題である。
最近のMLLM(Multi-modal large language model)は、目覚ましい一般的な推論能力を示しているが、それらは物理原理の人間レベルでの理解を達成するには至っていない。
既存の物理的推論のためのデータセットは、アノテーションコストの高い実世界のビデオや、制限された現実主義と多様性に苦しむ合成シミュレーションに依存する。
本稿では,物理世界理解のためのリッチでスケーラブルな監視源として,予め定義された物理法則に違反した視覚異常を参考に,ゲームプレイビデオのグリッチを利用する新しいパラダイムを提案する。
我々はPhysGameを紹介した。PhysGameは5つの物理ドメインと16のきめ細かいカテゴリからなる140,057のグリッチ中心の質問応答ペアを含む、メタ情報ガイド付き命令チューニングデータセットである。
データ精度を確保するため、タイトルや記述などのゲームプレイメタデータを利用して高品質なQA生成を誘導するプロンプト戦略を設計する。
PhysGameを補完し,物理的推論能力を評価するために設計された880glitchのゲームプレイビデオを備えた,専門家による注釈付きベンチマークであるGameBenchを構築した。
大規模な実験により、PhysGameはGame2Realの転送可能性を大幅に向上し、Qwen2.5VLの実際の物理的推論性能をPhysBenchで2.5%向上し、MVBenchベンチマークで1.9%向上した。
さらに、PhysGameで調整されたモデルは、GameBenchの3.7%の絶対的な改善を実現し、物理的な不確実性を検出するための堅牢性を向上した。
これらの結果から,ゲームプレイ異常からの学習は,マルチモーダルインテリジェンスにおける物理世界理解の進展に向けた,スケーラブルで効果的な経路を提供することが示された。
関連論文リスト
- PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis [52.905353023326306]
物理的に妥当で多様な実演を合成し、効率的な世界モデルを学ぶためのフレームワークであるPhysWorldを提案する。
実験により、PhysWorldは、最新の最先端手法、すなわちPhysTwinよりも47倍高速な推論速度を実現しつつ、競争性能を持つことが示された。
論文 参考訳(メタデータ) (2025-10-24T13:25:39Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments [26.02187269408895]
IntPhys 2は、ディープラーニングモデルの直感的な物理理解を評価するために設計されたビデオベンチマークである。
IntPhys 2は、永続性、不変性、時空間連続性、固さという、マクロ的なオブジェクトに関連する4つのコア原則に焦点を当てている。
論文 参考訳(メタデータ) (2025-06-11T15:21:16Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection [2.1013864820763755]
人間は、物体条件の物理的知識に基づいて、知覚、相互作用、推論によって現実世界の物体の異常を検出する。
Phys-ADは、産業異常検出のための、最初の大規模で現実世界の物理地上ビデオデータセットである。
このデータセットには、22の現実世界のオブジェクトカテゴリにわたる6400以上のビデオが含まれており、ロボットアームやモーターと相互作用し、47種類の異常を示す。
論文 参考訳(メタデータ) (2025-03-05T14:49:08Z) - PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos [66.09921831504238]
ゲームプレイビデオにおける物理コモンセンス違反を評価するための先駆的ベンチマークとしてPhysGameを提案する。
以上の結果から,現在のオープンソースビデオLLMのパフォーマンスは,プロプライエタリビデオよりも大幅に遅れていることが明らかとなった。
このデータセットに基づいて,PhysVLMを物理知識強化ビデオLLMとして提案する。
論文 参考訳(メタデータ) (2024-12-02T18:47:25Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。