論文の概要: Counterfactual World Modeling for Physical Dynamics Understanding
- arxiv url: http://arxiv.org/abs/2312.06721v2
- Date: Tue, 26 Dec 2023 04:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:21:24.308527
- Title: Counterfactual World Modeling for Physical Dynamics Understanding
- Title(参考訳): 物理力学理解のための実世界モデリング
- Authors: Rahul Venkatesh, Honglin Chen, Kevin Feigelis, Daniel M. Bear, Khaled
Jedoui, Klemen Kotar, Felix Binder, Wanhee Lee, Sherry Liu, Kevin A. Smith,
Judith E. Fan, Daniel L. K. Yamins
- Abstract要約: 物理力学を理解する能力は、世界で行動する学習エージェントにとって不可欠である。
本稿では,物理力学理解の基礎モデルである対実世界モデリングについて述べる。
CWMは物理力学の理解に挑戦するPhyssionベンチマークにおいて最先端の性能を達成していることを示す。
- 参考スコア(独自算出の注目度): 10.734753237836177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to understand physical dynamics is essential to learning agents
acting in the world. This paper presents Counterfactual World Modeling (CWM), a
candidate pure vision foundational model for physical dynamics understanding.
CWM consists of three basic concepts. First, we propose a simple and powerful
temporally-factored masking policy for masked prediction of video data, which
encourages the model to learn disentangled representations of scene appearance
and dynamics. Second, as a result of the factoring, CWM is capable of
generating counterfactual next-frame predictions by manipulating a few patch
embeddings to exert meaningful control over scene dynamics. Third, the
counterfactual modeling capability enables the design of counterfactual queries
to extract vision structures similar to keypoints, optical flows, and
segmentations, which are useful for dynamics understanding. We show that
zero-shot readouts of these structures extracted by the counterfactual queries
attain competitive performance to prior methods on real-world datasets.
Finally, we demonstrate that CWM achieves state-of-the-art performance on the
challenging Physion benchmark for evaluating physical dynamics understanding.
- Abstract(参考訳): 物理力学を理解する能力は、世界で行動する学習エージェントにとって不可欠である。
本稿では,物理力学理解のための純粋視覚基盤モデルとして,CWM(Counterfactual World Modeling)を提案する。
cwmは3つの基本的な概念からなる。
まず,映像データのマスキング予測のための簡易かつ強力な時間分解型マスキングポリシーを提案する。
第二に、CWMは、数個のパッチ埋め込みを操作してシーンダイナミクスを有意義に制御することで、偽の次フレーム予測を生成することができる。
第3に、逆ファクトモデリング機能により、動的理解に有用なキーポイント、光学フロー、セグメンテーションに似た視覚構造を抽出できる反ファクトクエリの設計が可能となる。
実世界のデータセットにおける先行手法に対して,反事実クエリによって抽出された構造をゼロショットで読み出すことにより,性能が向上することを示す。
最後に、CWMが物理力学の理解を評価するための挑戦的なPhyssionベンチマークにおいて、最先端の性能を達成することを実証する。
関連論文リスト
- ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [90.97595947781426]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Unifying (Machine) Vision via Counterfactual World Modeling [5.001446411351483]
本稿では,視覚基盤モデルを構築するためのフレームワークであるCWMを紹介する。
CWMには2つの重要なコンポーネントがあり、ファンデーションモデルの概念をビジョンに適用することを妨げる中核的な問題を解決している。
我々は,CWMが様々なタスクのために,現実世界の画像やビデオに対して高品質な読み出しを生成することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:45:44Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。
任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。
この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文 参考訳(メタデータ) (2020-06-09T17:18:34Z) - Toward Improving the Evaluation of Visual Attention Models: a
Crowdsourcing Approach [21.81407627962409]
最先端のモデルは、人間のデータからサリエンシマップを学習することに焦点を当てている。
私たちは、現在の測定値の限界を、唾液度予測とスキャンパス類似性に強調する。
本研究では, 教師なし重力モデルによって生じる走査パスが, 有能で有能な人間の観察者にとっていかに有用かを評価することを目的とした研究である。
論文 参考訳(メタデータ) (2020-02-11T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。