Fugu-MT 論文翻訳(概要): Counterfactual World Modeling for Physical Dynamics Understanding

論文の概要: Counterfactual World Modeling for Physical Dynamics Understanding

arxiv url: http://arxiv.org/abs/2312.06721v2
Date: Tue, 26 Dec 2023 04:37:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 21:21:24.308527
Title: Counterfactual World Modeling for Physical Dynamics Understanding
Title（参考訳）: 物理力学理解のための実世界モデリング
Authors: Rahul Venkatesh, Honglin Chen, Kevin Feigelis, Daniel M. Bear, Khaled Jedoui, Klemen Kotar, Felix Binder, Wanhee Lee, Sherry Liu, Kevin A. Smith, Judith E. Fan, Daniel L. K. Yamins
Abstract要約: 物理力学を理解する能力は、世界で行動する学習エージェントにとって不可欠である。本稿では,物理力学理解の基礎モデルである対実世界モデリングについて述べる。 CWMは物理力学の理解に挑戦するPhyssionベンチマークにおいて最先端の性能を達成していることを示す。
参考スコア（独自算出の注目度）: 10.734753237836177
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to understand physical dynamics is essential to learning agents acting in the world. This paper presents Counterfactual World Modeling (CWM), a candidate pure vision foundational model for physical dynamics understanding. CWM consists of three basic concepts. First, we propose a simple and powerful temporally-factored masking policy for masked prediction of video data, which encourages the model to learn disentangled representations of scene appearance and dynamics. Second, as a result of the factoring, CWM is capable of generating counterfactual next-frame predictions by manipulating a few patch embeddings to exert meaningful control over scene dynamics. Third, the counterfactual modeling capability enables the design of counterfactual queries to extract vision structures similar to keypoints, optical flows, and segmentations, which are useful for dynamics understanding. We show that zero-shot readouts of these structures extracted by the counterfactual queries attain competitive performance to prior methods on real-world datasets. Finally, we demonstrate that CWM achieves state-of-the-art performance on the challenging Physion benchmark for evaluating physical dynamics understanding.
Abstract（参考訳）: 物理力学を理解する能力は、世界で行動する学習エージェントにとって不可欠である。本稿では,物理力学理解のための純粋視覚基盤モデルとして,CWM(Counterfactual World Modeling)を提案する。 cwmは3つの基本的な概念からなる。まず,映像データのマスキング予測のための簡易かつ強力な時間分解型マスキングポリシーを提案する。第二に、CWMは、数個のパッチ埋め込みを操作してシーンダイナミクスを有意義に制御することで、偽の次フレーム予測を生成することができる。第3に、逆ファクトモデリング機能により、動的理解に有用なキーポイント、光学フロー、セグメンテーションに似た視覚構造を抽出できる反ファクトクエリの設計が可能となる。実世界のデータセットにおける先行手法に対して,反事実クエリによって抽出された構造をゼロショットで読み出すことにより,性能が向上することを示す。最後に、CWMが物理力学の理解を評価するための挑戦的なPhyssionベンチマークにおいて、最先端の性能を達成することを実証する。

関連論文リスト

Learning Generalizable Visuomotor Policy through Dynamics-Alignment [13.655111993491674]
ビデオ予測モデルを利用した最近のアプローチは、大規模データセットからリッチな表現を学習することで、有望な結果を示している。本稿では,ダイナミックス予測をポリシ学習に統合するDAP(Dynamics-Aligned Flow Matching Policy)を提案する。提案手法では,ポリシーモデルと動的モデルが相互に行動生成のフィードバックを与え,自己補正を実現し,一般化を向上するアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-10-31T02:29:33Z)
A Time-Series Foundation Model by Universal Delay Embedding [4.221753069966852]
本研究は,時系列予測に革命をもたらすための事前訓練された基礎モデルであるUniversal Delay Embedding (UDE)を紹介する。観測データの動的表現としてのUDEは、ハンケル行列から2次元部分空間パッチを構成する。特に、学習された動的表現とパッチからのクープマン作用素予測形式は例外的な解釈可能性を示す。
論文参考訳（メタデータ） (2025-09-15T16:11:49Z)
VisionLaw: Inferring Interpretable Intrinsic Dynamics from Visual Observations via Bilevel Optimization [3.131272328696594]
VisionLawは、視覚的な観察から固有の力学の解釈可能な表現を推論する二段階最適化フレームワークである。既存の最先端手法を著しく上回り、新しいシナリオにおける対話型シミュレーションの強力な一般化を示す。
論文参考訳（メタデータ） (2025-08-19T12:52:16Z)
Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。 USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文参考訳（メタデータ） (2025-08-18T02:42:16Z)
MOOSE: Pay Attention to Temporal Dynamics for Video Understanding via Optical Flows [21.969862773424314]
MOOSEは、光フローと空間埋め込みを統合し、時間情報を効率的にモデル化する新しい時間中心ビデオエンコーダである。従来のモデルとは異なり、MOOSEはビデオモデルをスクラッチからトレーニングする代わりに、リッチで広く訓練済みの視覚的および光学的フローエンコーダを利用する。
論文参考訳（メタデータ） (2025-06-01T18:53:27Z)
Robust Multi-Modal Forecasting: Integrating Static and Dynamic Features [0.0]
時系列予測は様々な応用、特に医療において重要な役割を担っている。これらのタスクに責任を負うモデルの透明性と説明可能性を保証することは、重要な設定で採用するために不可欠である。最近の研究は、予測時系列の傾向と特性を理解することに焦点を当てた、双方向透明性に対するトップダウンアプローチを探求している。
論文参考訳（メタデータ） (2025-05-21T04:12:12Z)
Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文参考訳（メタデータ） (2024-10-23T14:22:49Z)
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Skeleton2vec: A Self-supervised Learning Framework with Contextualized Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-01-01T12:08:35Z)
Finding emergence in data by maximizing effective information [2.1714094454496013]
創発的な現象を特定し、利用可能なデータを使用してマクロレベルで創発的なダイナミクスをキャプチャするフレームワークを開発することが重要です。本稿では,因果発生理論(CE)にヒントを得て,創発的潜在空間におけるマクロ力学を学習するための機械学習フレームワークを提案する。シミュレーションおよび実データによる実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-08-19T09:12:47Z)
Unifying (Machine) Vision via Counterfactual World Modeling [5.001446411351483]
本稿では,視覚基盤モデルを構築するためのフレームワークであるCWMを紹介する。 CWMには2つの重要なコンポーネントがあり、ファンデーションモデルの概念をビジョンに適用することを妨げる中核的な問題を解決している。我々は,CWMが様々なタスクのために,現実世界の画像やビデオに対して高品質な読み出しを生成することを示す。
論文参考訳（メタデータ） (2023-06-02T17:45:44Z)
EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph Learning [92.71579608528907]
本稿では,3つのモジュールから構成される使い勝手の良いパイプライン(EasyDGL)を設計することを目的とする。 EasyDGLは、進化するグラフデータからモデルが学習する周波数コンテンツの予測力を効果的に定量化することができる。
論文参考訳（メタデータ） (2023-03-22T06:35:08Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Neural Extended Kalman Filters for Learning and Predicting Dynamics of Structural Systems [5.252966797394752]
複雑な物理系の潜在進化力学を学習するための学習可能な拡張カルマンフィルタ(EKF)を提案する。ニューラルEKFは従来のEKFの一般化版であり、プロセスダイナミクスと感覚観測のモデリングをニューラルネットワークでパラメータ化することができる。ニューラルEKFが課す構造は学習プロセスに有益であることを示す。
論文参考訳（メタデータ） (2022-10-09T04:39:15Z)
Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文参考訳（メタデータ） (2022-06-07T13:51:35Z)
Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文参考訳（メタデータ） (2021-04-29T12:18:02Z)
Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文参考訳（メタデータ） (2020-06-09T17:18:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。