論文の概要: Towards Physically Interpretable World Models: Meaningful Weakly Supervised Representations for Visual Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2412.12870v3
- Date: Thu, 01 May 2025 05:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 21:19:51.198883
- Title: Towards Physically Interpretable World Models: Meaningful Weakly Supervised Representations for Visual Trajectory Prediction
- Title(参考訳): 物理的に解釈可能な世界モデルに向けて:視覚軌道予測のための無意味な弱ビジョン表現
- Authors: Zhenjiang Mao, Ivan Ruchkin,
- Abstract要約: 本稿では,学習した潜在表現と実世界の物理量とを一致させる新しいアーキテクチャを提案する。
3つのケーススタディは,本手法が物理的解釈可能性および正確な状態予測を実現することを実証している。
- 参考スコア(独自算出の注目度): 0.1534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models are increasingly employed for perception, prediction, and control in robotic systems. For for achieving realistic and consistent outputs, it is crucial to embed physical knowledge into their learned representations. However, doing so is difficult due to high-dimensional observation data, such as images, particularly under conditions of incomplete system knowledge and imprecise state sensing. To address this, we propose Physically Interpretable World Models, a novel architecture that aligns learned latent representations with real-world physical quantities. To this end, our architecture combines three key elements: (1) a vector-quantized image autoencoder, (2) a transformer-based physically interpretable autoencoder, and (3) a partially known dynamical model. The training incorporates weak interval-based supervision to eliminate the impractical reliance on ground-truth physical knowledge. Three case studies demonstrate that our approach achieves physical interpretability and accurate state predictions, thus advancing representation learning for robotics.
- Abstract(参考訳): ディープラーニングモデルは、ロボットシステムの知覚、予測、制御にますます採用されている。
現実的で一貫性のあるアウトプットを達成するためには、物理的な知識を学習した表現に組み込むことが不可欠である。
しかし、画像などの高次元観測データ、特に不完全なシステム知識や不正確な状態検知の条件下では、そのような処理は困難である。
そこで本研究では,学習した潜在表現を実世界の物理量と整合させる新しいアーキテクチャである物理解釈可能世界モデルを提案する。
この目的のために,本アーキテクチャは,(1)ベクトル量子化画像オートエンコーダ,(2)トランスフォーマに基づく物理的解釈可能なオートエンコーダ,(3)部分的に知られている動的モデルという3つの重要な要素を結合する。
この訓練は、弱い間隔に基づく監督を取り入れ、地道的な物理的知識への非現実的な依存を排除している。
3つのケーススタディは,本手法が物理的解釈可能性と正確な状態予測を実現し,ロボット工学における表現学習の進歩を示すものである。
関連論文リスト
- Four Principles for Physically Interpretable World Models [1.9573380763700712]
未来の高次元観測を確実に予測できる信頼できる世界モデルの必要性が高まっている。
本稿では,物理情報から物理的解釈可能な世界モデルへの根本的な変化を論じる。
論文 参考訳(メタデータ) (2025-03-04T00:19:32Z) - Intuitive physics understanding emerges from self-supervised pretraining on natural videos [39.030105916720835]
自然映像におけるマスキング領域の予測を訓練したディープニューラルネットワークモデルにおける直感的な物理理解の出現について検討する。
学習された表現空間における結果を予測するために訓練された映像予測モデルは、様々な直感的な物理特性の理解を示す。
論文 参考訳(メタデータ) (2025-02-17T14:27:14Z) - Generative Physical AI in Vision: A Survey [78.07014292304373]
遺伝子人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
この変換は、現実的な画像、ビデオ、および3D/4Dコンテンツを生成するための生成モデルの基礎の上に構築されている。
生成モデルが進化して物理リアリズムと動的シミュレーションを統合するにつれ、「世界シミュレータ」として機能する可能性が拡大する。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing [38.97168020979433]
本稿では, 視覚と触覚を組み合わせ, 触覚インフォームド・ダイナミックスモデルを学習することでロボット操作を実現するアプローチを提案する。
提案するフレームワークであるRoboPackは、オブジェクト状態を推定するために、リカレントグラフニューラルネットワークを使用している。
我々は,非包括的操作と密包装作業に対するソフトバブル触覚センサを備えた実ロボットへのアプローチを実証する。
論文 参考訳(メタデータ) (2024-07-01T16:08:37Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Knowledge-based Deep Learning for Modeling Chaotic Systems [7.075125892721573]
本稿では,極端事象とその力学を考察し,知識ベースディープラーニング(KDL)と呼ばれる,深層ニューラルネットワークに基づくモデルを提案する。
提案するKDLは,実データとシミュレーションデータとの協調学習により,カオスシステムを管理する複雑なパターンを学習することができる。
我々は,エルニーニョ海表面温度,サンフアン・デング熱感染,ブヨルノヤ日降水という3つの実世界のベンチマークデータセットを用いて,我々のモデルを検証した。
論文 参考訳(メタデータ) (2022-09-09T11:46:25Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Learning dynamics from partial observations with structured neural ODEs [5.757156314867639]
本稿では,ニューラルODEに基づくシステム識別に関する幅広い物理的知見を取り入れたフレキシブルなフレームワークを提案する。
本稿では,ロボット外骨格を用いた数値シミュレーションおよび実験データセットにおける提案手法の性能について述べる。
論文 参考訳(メタデータ) (2022-05-25T07:54:10Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Bridging the Gap: Machine Learning to Resolve Improperly Modeled
Dynamics [4.940323406667406]
本稿では,複雑な時間的挙動を示すシステムに対して,不適切にモデル化された力学を克服するためのデータ駆動型モデリング戦略を提案する。
本稿では,システムの真の力学と,不正確あるいは不適切に記述されたシステムのモデルによって与えられる力学の相違を解決するためのディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-23T04:57:02Z) - Heteroscedastic Uncertainty for Robust Generative Latent Dynamics [7.107159120605662]
本稿では,潜在状態表現と関連するダイナミクスを協調的に学習する手法を提案する。
我々の主な貢献として、我々の表現がヘテロスセダスティックあるいは入力固有の不確実性の概念を捉えることができるかを説明します。
画像に基づく2つのタスクの予測と制御実験の結果を示す。
論文 参考訳(メタデータ) (2020-08-18T21:04:33Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。