Fugu-MT 論文翻訳(概要): CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

論文の概要: CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

arxiv url: http://arxiv.org/abs/2605.23699v1
Date: Fri, 22 May 2026 14:51:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 17:29:20.395322
Title: CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models
Title（参考訳）: CRONOS:ビデオモデルにおける非現実的物理的一貫性のベンチマーク
Authors: León Begiristain, Olaf Dünkel, Adam Kortylewski,
Abstract要約: CRONOSは、実際の物理的一貫性を評価するために設計された介入ベースのベンチマークである。 Unreal Engine環境で構築されたCRONOSは、さまざまなシーンやダイナミックスにわたる、制御された高忠実なビデオ生成を可能にする。
参考スコア（独自算出の注目度）: 25.976578205889776
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video prediction is increasingly viewed as a path toward generalizable world models, yet it remains unclear whether these systems learn underlying causal structure or merely exploit superficial visual correlations for future prediction. We introduce CRONOS, an intervention-based benchmark designed to evaluate counterfactual physical consistency: whether a model's predictions of physical events respond appropriately to controlled changes in the visual input, such as variations of scene context, viewpoint, object appearance, and object category. Built in a photorealistic Unreal Engine environment, CRONOS enables controlled, high-fidelity generation of videos across diverse scenes and dynamics. In contrast to previous benchmarks, CRONOS systematically intervenes on four key factors - viewpoint, scene, object category, and object appearance - while keeping the underlying physical event type, such as a collision, occlusion, or fall, fixed. Our evaluation of recent open-source video generators reveals substantial failures in counterfactual physical consistency: prediction quality for the same physical event type is affected by appearance, environment, and, particularly by viewpoint changes. CRONOS provides a controlled and reproducible testbed for diagnosing how the quality of generated videos changes for different interventions, establishing a concrete target for developing models that perform consistently across changes of multiple conditions. The dataset and code are available at our project page.
Abstract（参考訳）: ビデオ予測は、一般化可能な世界モデルへの道のりとしてますます見なされているが、これらのシステムが根底にある因果構造を学習するか、あるいは将来の予測のために表面的な視覚的相関を単に活用するかは、まだ不明である。 CRONOSは、物理的事象のモデル予測が、シーンコンテキスト、視点、オブジェクトの外観、オブジェクトカテゴリのバリエーションなどの視覚的入力の変化に適切に応答するかどうかを検証するための介入ベースのベンチマークである。フォトリアリスティックなUnreal Engine環境で構築されたCRONOSは、さまざまなシーンやダイナミックスにまたがる、制御された高忠実なビデオ生成を可能にする。以前のベンチマークとは対照的に、CRONOSは4つの重要な要素 – 視点、シーン、オブジェクトカテゴリ、オブジェクトの外観 – を体系的に介入すると同時に、衝突、閉塞、転倒などの基盤となる物理イベントタイプを維持している。近年のオープンソースビデオジェネレータの評価では,同一の物理イベントタイプに対する予測品質は,外観,環境,特に視点変化の影響を受けやすい。 CRONOSは、異なる介入のために生成されたビデオの品質がどのように変化するかを診断し、複数の条件の変化に対して一貫して実行されるモデルを開発するための具体的なターゲットを確立するための、制御され再現可能なテストベッドを提供する。データセットとコードはプロジェクトのページで公開されています。

関連論文リスト

PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。 i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文参考訳（メタデータ） (2026-04-30T17:53:03Z)
GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection [54.879037588415656]
GenHOIは、事前訓練されたビデオ生成モデルに対する軽量な拡張である。参照オブジェクト情報を時間的にバランスよく空間的に選択的に注入する。 GenHOIは最先端のHOI再現やオールインワンのビデオ編集方法よりも優れています。
論文参考訳（メタデータ） (2026-03-06T09:01:09Z)
Counterfactual World Models via Digital Twin-conditioned Video Diffusion [7.761903219193172]
CWMDTは,標準映像拡散モデルを効果的な対実世界モデルに変換するフレームワークである。 CWMDTは観察されたシーンのデジタルツインを構築し、オブジェクトとその関係を明示的にエンコードし、構造化されたテキストとして表現する。我々は,CWMDTが最先端のパフォーマンスを達成し,映像の代替表現であるデジタルツインが,映像フォワードシミュレーションに基づく世界モデルに強力な制御信号を提供することを示す。
論文参考訳（メタデータ） (2025-11-21T18:37:23Z)
On the Benefits of Instance Decomposition in Video Prediction Models [5.653106385738823]
最先端のビデオ予測手法は、通常、別個のオブジェクトに明示的に分解することなく、共同で暗黙的にシーンのダイナミクスをモデル化する。ダイナミックなシーンのすべてのオブジェクトは独自の動きパターンを持ち、通常は他とは独立しているため、これは挑戦的であり、潜在的に準最適である。本稿では,動的シーンにおけるオブジェクトを,潜在変換器による映像予測モデルの範囲内で明示的にモデル化する利点について検討する。
論文参考訳（メタデータ） (2025-01-17T21:36:06Z)
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSはシーンレベルで多数の調整可能なパラメータをサポートする。アプリケーションシナリオを3つ紹介する。
論文参考訳（メタデータ） (2024-05-15T17:57:56Z)
A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文参考訳（メタデータ） (2023-04-26T17:59:45Z)
STDepthFormer: Predicting Spatio-temporal Depth from Video with a Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文参考訳（メタデータ） (2023-03-02T12:22:51Z)
COPILOT: Human-Environment Collision Prediction and Localization from Egocentric Videos [62.34712951567793]
エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。本稿では、ボディマウントカメラから撮影した多視点エゴセントリックビデオから、多様な環境における衝突を予測するという課題を紹介する。衝突予測と局所化を同時に行うために,COPILOTと呼ばれるトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2022-10-04T17:49:23Z)
Causal Discovery in Physical Systems from Videos [123.79211190669821]
因果発見は人間の認知の中心にある。本研究では,ビデオの因果発見の課題を,地層構造を監督せずにエンドツーエンドで検討する。
論文参考訳（メタデータ） (2020-07-01T17:29:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。