論文の概要: Learning to Identify Physical Parameters from Video Using Differentiable
Physics
- arxiv url: http://arxiv.org/abs/2009.08292v1
- Date: Thu, 17 Sep 2020 13:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 09:01:43.914455
- Title: Learning to Identify Physical Parameters from Video Using Differentiable
Physics
- Title(参考訳): 微分物理学を用いた映像からの物理パラメータの同定
- Authors: Rama Krishna Kandukuri, Jan Achterhold, Michael M\"oller, J\"org
St\"uckler
- Abstract要約: 本稿では,アクション条件付きビデオ表現ネットワーク内の物理エンジンを用いて物理潜在表現を学習する手法を提案する。
われわれのネットワークは、画像のエンコードと、ビデオやアクションシーケンスからの質量や摩擦などの物理的特性の同定を学習できることを実証する。
- 参考スコア(独自算出の注目度): 2.15242029196761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video representation learning has recently attracted attention in computer
vision due to its applications for activity and scene forecasting or
vision-based planning and control. Video prediction models often learn a latent
representation of video which is encoded from input frames and decoded back
into images. Even when conditioned on actions, purely deep learning based
architectures typically lack a physically interpretable latent space. In this
study, we use a differentiable physics engine within an action-conditional
video representation network to learn a physical latent representation. We
propose supervised and self-supervised learning methods to train our network
and identify physical properties. The latter uses spatial transformers to
decode physical states back into images. The simulation scenarios in our
experiments comprise pushing, sliding and colliding objects, for which we also
analyze the observability of the physical properties. In experiments we
demonstrate that our network can learn to encode images and identify physical
properties like mass and friction from videos and action sequences in the
simulated scenarios. We evaluate the accuracy of our supervised and
self-supervised methods and compare it with a system identification baseline
which directly learns from state trajectories. We also demonstrate the ability
of our method to predict future video frames from input images and actions.
- Abstract(参考訳): 近年,映像表現学習がコンピュータビジョンに注目されている。
ビデオ予測モデルは、しばしば入力フレームからエンコードされ、画像にデコードされるビデオの潜在表現を学習する。
アクションが条件付きであっても、純粋にディープラーニングベースのアーキテクチャは、物理的に解釈可能な潜在空間を欠いている。
本研究では,動作条件映像表現ネットワーク内の微分可能な物理エンジンを用いて,物理的潜在表現を学習する。
本稿では,ネットワークを学習し,物理的特性を識別するための教師付き自己教師型学習手法を提案する。
後者は空間トランスフォーマーを使って物理的状態を画像にデコードする。
実験におけるシミュレーションシナリオは, 物体の押・滑動・衝突を想定し, 物理特性の可観測性も解析した。
実験では,ネットワークが画像の符号化を学習し,シミュレーションシナリオで映像と映像との摩擦や動作シーケンスなどの物理的特性を識別できることを実証する。
我々は, 教師付きおよび自己教師付き手法の精度を評価し, 状態軌跡から直接学習するシステム同定ベースラインと比較する。
また,入力画像や動作から将来の映像フレームを予測する能力についても示す。
関連論文リスト
- PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - Video-Driven Graph Network-Based Simulators [7.687678490751104]
本稿では,短いビデオからシステムの物理的特性を推測する手法を提案する。
学習された表現は、物理システムの軌道をエミュレートするために、グラフネットワークベースのシミュレータ内で使用される。
本研究では,映像由来の符号化がシステムの物理的特性を効果的に捉え,符号化とシステムの動作の線形依存性を示すことを実証する。
論文 参考訳(メタデータ) (2024-09-10T07:04:48Z) - Identifying Terrain Physical Parameters from Vision -- Towards Physical-Parameter-Aware Locomotion and Navigation [33.10872127224328]
視覚に基づく環境パラメータ推定のためのクロスモーダルな自己教師型学習フレームワークを提案する。
我々は物理デコーダをシミュレーションで訓練し、マルチモーダル入力から摩擦と剛性を予測した。
トレーニングされたネットワークは、物理的なパラメータを持つ現実世界のイメージのラベル付けを可能にし、デプロイ中にビジュアルネットワークをさらにトレーニングする。
論文 参考訳(メタデータ) (2024-08-29T14:35:14Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Learning to See Physical Properties with Active Sensing Motor Policies [20.851419392513503]
本稿では,観測された地形を入力とし,物理的特性を予測する視覚システム構築の課題を克服する手法を提案する。
本稿では,身体的パラメータを推定する精度を高めるため,運動行動の学習を目的としたアクティブセンシングモータポリシ(ASMP)を紹介する。
訓練されたシステムは頑丈で、地上を歩いている四足歩行ロボットのカメラが収集したデータに基づいて訓練されているにもかかわらず、ドローンが捉えたオーバーヘッド画像でも機能する。
論文 参考訳(メタデータ) (2023-11-02T17:19:18Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。