論文の概要: HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies
- arxiv url: http://arxiv.org/abs/2602.19571v1
- Date: Mon, 23 Feb 2026 07:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.714672
- Title: HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies
- Title(参考訳): HOCA-Bench: Hegelian Ontological-Causal Anomaliesによる予測的世界モデリングへのセマンティック・パーセプションを超えて
- Authors: Chang Liu, Yunfan Ye, Qingyang Zhou, Xichen Tan, Mengxuan Luo, Zhenyu Qiu, Wei Peng, Zhiping Cai,
- Abstract要約: ビデオLLMは、セマンティック認識において着実に改善されているが、予測的世界モデリングには依然として不足している。
ヘーゲルレンズを通して物理異常をフレーム化するベンチマークであるHOCA-Benchを紹介する。
- 参考スコア(独自算出の注目度): 30.95227838131802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-LLMs have improved steadily on semantic perception, but they still fall short on predictive world modeling, which is central to physically grounded intelligence. We introduce HOCA-Bench, a benchmark that frames physical anomalies through a Hegelian lens. HOCA-Bench separates anomalies into two types: ontological anomalies, where an entity violates its own definition or persistence, and causal anomalies, where interactions violate physical relations. Using state-of-the-art generative video models as adversarial simulators, we build a testbed of 1,439 videos (3,470 QA pairs). Evaluations on 17 Video-LLMs show a clear cognitive lag: models often identify static ontological violations (e.g., shape mutations) but struggle with causal mechanisms (e.g., gravity or friction), with performance dropping by more than 20% on causal tasks. System-2 "Thinking" modes improve reasoning, but they do not close the gap, suggesting that current architectures recognize visual patterns more readily than they apply basic physical laws.
- Abstract(参考訳): ビデオLLMは、セマンティック・インテリジェンス(セマンティック・インテリジェンス)に着実に改善されているが、それでも、物理的な基盤を持つインテリジェンスの中心である予測的世界モデリングに不足している。
ヘーゲルレンズを通して物理異常をフレーム化するベンチマークであるHOCA-Benchを紹介する。
HOCA-Benchは異常を2つのタイプに分類する: 存在論的異常、実体が自身の定義や永続性に違反している場合、因果異常、相互作用が物理的関係に反する場合である。
最先端の生成ビデオモデルを対向シミュレータとして使用し、1,439本のビデオ(QAペア3,470本)をテストベッドとして構築する。
モデルは静的な存在論的違反(例えば、形状の突然変異)を識別するが、因果的メカニズム(例えば、重力や摩擦)に苦慮し、因果的タスクでは20%以上性能が低下する。
System-2 "Thinking"モードは推論を改善するが、そのギャップを埋めることはできず、現在のアーキテクチャは基本的な物理法則を適用するよりも視覚的パターンをより容易に認識することを示唆している。
関連論文リスト
- A Mechanistic View on Video Generation as World Models: State and Dynamics [43.951972667861575]
本研究は、状態構築とダイナミクスモデリングという2つの柱を中心とした新しい分類法を提案する。
これらの課題に対処することで、視野は視覚的に可視なビデオから、堅牢で汎用的な世界シミュレータの構築へと進化することができる。
論文 参考訳(メタデータ) (2026-01-22T19:00:18Z) - MMGR: Multi-Modal Generative Reasoning [97.44203203196481]
本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。
MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。
主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
論文 参考訳(メタデータ) (2025-12-16T18:58:04Z) - Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.00111584020834]
我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。
私たちは、人気の高いVeo-3に注力しています。
我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
論文 参考訳(メタデータ) (2025-10-30T17:59:55Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection [2.1013864820763755]
人間は、物体条件の物理的知識に基づいて、知覚、相互作用、推論によって現実世界の物体の異常を検出する。
Phys-ADは、産業異常検出のための、最初の大規模で現実世界の物理地上ビデオデータセットである。
このデータセットには、22の現実世界のオブジェクトカテゴリにわたる6400以上のビデオが含まれており、ロボットアームやモーターと相互作用し、47種類の異常を示す。
論文 参考訳(メタデータ) (2025-03-05T14:49:08Z) - Learning Physical Dynamics with Subequivariant Graph Neural Networks [99.41677381754678]
グラフニューラルネットワーク(GNN)は、物理力学を学習するための一般的なツールとなっている。
物理法則は、モデル一般化に必須な帰納バイアスである対称性に従属する。
本モデルは,RigidFall上でのPhysylonと2倍低ロールアウトMSEの8つのシナリオにおいて,平均3%以上の接触予測精度の向上を実現している。
論文 参考訳(メタデータ) (2022-10-13T10:00:30Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。