論文の概要: Counterfactual World Models via Digital Twin-conditioned Video Diffusion
- arxiv url: http://arxiv.org/abs/2511.17481v1
- Date: Fri, 21 Nov 2025 18:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.166973
- Title: Counterfactual World Models via Digital Twin-conditioned Video Diffusion
- Title(参考訳): ディジタル双対条件ビデオ拡散による実世界モデル
- Authors: Yiqing Shen, Aiza Maksutova, Chenjia Li, Mathias Unberath,
- Abstract要約: CWMDTは,標準映像拡散モデルを効果的な対実世界モデルに変換するフレームワークである。
CWMDTは観察されたシーンのデジタルツインを構築し、オブジェクトとその関係を明示的にエンコードし、構造化されたテキストとして表現する。
我々は,CWMDTが最先端のパフォーマンスを達成し,映像の代替表現であるデジタルツインが,映像フォワードシミュレーションに基づく世界モデルに強力な制御信号を提供することを示す。
- 参考スコア(独自算出の注目度): 7.761903219193172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models learn to predict the temporal evolution of visual observations given a control signal, potentially enabling agents to reason about environments through forward simulation. Because of the focus on forward simulation, current world models generate predictions based on factual observations. For many emerging applications, such as comprehensive evaluations of physical AI behavior under varying conditions, the ability of world models to answer counterfactual queries, such as "what would happen if this object was removed?", is of increasing importance. We formalize counterfactual world models that additionally take interventions as explicit inputs, predicting temporal sequences under hypothetical modifications to observed scene properties. Traditional world models operate directly on entangled pixel-space representations where object properties and relationships cannot be selectively modified. This modeling choice prevents targeted interventions on specific scene properties. We introduce CWMDT, a framework to overcome those limitations, turning standard video diffusion models into effective counterfactual world models. First, CWMDT constructs digital twins of observed scenes to explicitly encode objects and their relationships, represented as structured text. Second, CWMDT applies large language models to reason over these representations and predict how a counterfactual intervention propagates through time to alter the observed scene. Third, CWMDT conditions a video diffusion model with the modified representation to generate counterfactual visual sequences. Evaluations on two benchmarks show that the CWMDT approach achieves state-of-the-art performance, suggesting that alternative representations of videos, such as the digital twins considered here, offer powerful control signals for video forward simulation-based world models.
- Abstract(参考訳): 世界モデルは、制御信号が与えられた視覚的観察の時間的進化を予測することを学び、エージェントは前方シミュレーションを通じて環境を推論できる可能性がある。
フォワードシミュレーションに焦点が当てられているため、現在の世界モデルは実測に基づいて予測を生成する。
さまざまな条件下での物理的なAI行動の包括的評価など、多くの新興アプリケーションにおいて、"このオブジェクトが削除されたらどうなるか?
我々は,観察されたシーン特性に対する仮説的修正の下での時間的シーケンスを予測し,介入を明示的な入力として追加する対実世界モデルを定式化する。
伝統的な世界モデルは、オブジェクトの特性と関係を選択的に修正できないような、絡み合ったピクセル空間の表現を直接操作する。
このモデリング選択は、特定のシーンプロパティに対するターゲットの介入を防ぐ。
我々はこれらの制限を克服するフレームワークであるCWMDTを導入し、標準映像拡散モデルを効果的な対実世界モデルに変換する。
まず、CWMDTは観察されたシーンのデジタルツインを構築し、オブジェクトとその関係を構造化されたテキストとして明示的にエンコードする。
第二に、CWMDTはこれらの表現を推論するために大きな言語モデルを適用し、反事実的介入が時間を通してどのように伝播し、観察されたシーンを変更するかを予測する。
第3に、CWMDTは、修正された表現でビデオ拡散モデルを定義して、反現実的な視覚的シーケンスを生成する。
2つのベンチマークによる評価は、CWMDTアプローチが最先端のパフォーマンスを達成することを示し、ビデオの代替表現であるデジタルツイン(英語版)は、ビデオフォワードシミュレーションに基づく世界モデルに強力な制御信号を提供することを示唆している。
関連論文リスト
- Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。