論文の概要: PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos
- arxiv url: http://arxiv.org/abs/2412.01800v1
- Date: Mon, 02 Dec 2024 18:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:52.049405
- Title: PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos
- Title(参考訳): PhysGame:ゲームプレイビデオで物理コモンセンス違反を発見
- Authors: Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang,
- Abstract要約: ゲームプレイビデオにおける物理コモンセンス違反を評価するための先駆的ベンチマークとしてPhysGameを提案する。
以上の結果から,現在のオープンソースビデオLLMのパフォーマンスは,プロプライエタリビデオよりも大幅に遅れていることが明らかとなった。
このデータセットに基づいて,PhysVLMを物理知識強化ビデオLLMとして提案する。
- 参考スコア(独自算出の注目度): 66.09921831504238
- License:
- Abstract: Recent advancements in video-based large language models (Video LLMs) have witnessed the emergence of diverse capabilities to reason and interpret dynamic visual content. Among them, gameplay videos stand out as a distinctive data source, often containing glitches that defy physics commonsense. This characteristic renders them an effective benchmark for assessing the under-explored capability of physical commonsense understanding in video LLMs. In this paper, we propose PhysGame as a pioneering benchmark to evaluate physical commonsense violations in gameplay videos. PhysGame comprises 880 videos associated with glitches spanning four fundamental domains (i.e., mechanics, kinematics, optics, and material properties) and across 12 distinct physical commonsense. Through extensively evaluating various state-ofthe-art video LLMs, our findings reveal that the performance of current open-source video LLMs significantly lags behind that of proprietary counterparts. To bridge this gap, we curate an instruction tuning dataset PhysInstruct with 140,057 question-answering pairs to facilitate physical commonsense learning. In addition, we also propose a preference optimization dataset PhysDPO with 34,358 training pairs, where the dis-preferred responses are generated conditioned on misleading titles (i.e., meta information hacking), fewer frames (i.e., temporal hacking) and lower spatial resolutions (i.e., spatial hacking). Based on the suite of datasets, we propose PhysVLM as a physical knowledge-enhanced video LLM. Extensive experiments on both physical-oriented benchmark PhysGame and general video understanding benchmarks demonstrate the state-ofthe-art performance of PhysVLM.
- Abstract(参考訳): ビデオベース大規模言語モデル(ビデオLLM)の最近の進歩は、動的視覚コンテンツを推論し解釈する多様な能力の出現を目撃している。
その中でも、ゲームプレイビデオはユニークなデータソースとして際立っている。
この特徴は、ビデオLLMにおける物理コモンセンス理解の未探索能力を評価するための効果的なベンチマークとなる。
本稿では,ゲームプレイビデオにおける物理コモンセンス違反を評価するための先駆的ベンチマークとしてPhysGameを提案する。
PhysGameは、4つの基本的な領域(力学、キネマティクス、光学、材料特性)にまたがるグリッチに関連する880の動画と、12の異なる物理コモンセンスで構成されている。
各種の最先端ビデオLLMを広範囲に評価した結果,現在のオープンソースビデオLLMの性能は,プロプライエタリビデオよりも著しく遅れていることが明らかとなった。
このギャップを埋めるために,140,057組の質問応答ペアを用いて指導調律データセットPhysInstructをキュレートし,物理コモンセンス学習を容易にする。
また,34,358のトレーニングペアを持つ選好最適化データセットPhysDPOを提案し,非推奨の応答が誤解を招くタイトル(メタ情報ハッキング)、フレームの削減(時間的ハッキング)、空間分解能の低下(空間ハッキング)を条件に生成される。
このデータセットに基づいて,PhysVLMを物理知識強化ビデオLLMとして提案する。
物理指向型ベンチマークPhysGameと一般ビデオ理解型ベンチマークの両方での大規模な実験は、PhysVLMの最先端性能を実証している。
関連論文リスト
- VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - PhysPT: Physics-aware Pretrained Transformer for Estimating Human Dynamics from Monocular Videos [29.784542628690794]
本稿では、運動量に基づく運動推定を改善し、運動力を推定する物理対応事前学習変換器(PhysPT)を提案する。
PhysPTはTransformerエンコーダ/デコーダのバックボーンを利用して、自己管理的な方法で人間のダイナミクスを効果的に学習する。
論文 参考訳(メタデータ) (2024-04-05T22:07:25Z) - Trajectory Optimization for Physics-Based Reconstruction of 3d Human
Pose from Monocular Video [31.96672354594643]
本研究は,単眼映像から身体的に可視な人間の動きを推定する作業に焦点をあてる。
物理を考慮しない既存のアプローチは、しばしば運動人工物と時間的に矛盾した出力を生み出す。
提案手法は,Human3.6Mベンチマークにおける既存の物理法と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-24T18:02:49Z) - CLIP meets GamePhysics: Towards bug identification in gameplay videos
using zero-shot transfer learning [4.168157981135698]
本稿では,関連するゲームプレイ映像を検索するために,英語のテキストクエリを入力として受け入れる検索手法を提案する。
われわれのアプローチは外部情報(ビデオメタデータなど)に頼らない。
我々のアプローチの例としては、ビデオゲームのバグを再現するためのゲームプレイ用ビデオ検索エンジンがある。
論文 参考訳(メタデータ) (2022-03-21T16:23:02Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Use the Force, Luke! Learning to Predict Physical Forces by Simulating
Effects [79.351446087227]
物体と相互作用する人間の映像から接触点と物理的力の推測の問題に対処する。
具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。
論文 参考訳(メタデータ) (2020-03-26T17:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。