論文の概要: Learning to Identify Physical Parameters from Video Using Differentiable
Physics
- arxiv url: http://arxiv.org/abs/2009.08292v1
- Date: Thu, 17 Sep 2020 13:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 09:01:43.914455
- Title: Learning to Identify Physical Parameters from Video Using Differentiable
Physics
- Title(参考訳): 微分物理学を用いた映像からの物理パラメータの同定
- Authors: Rama Krishna Kandukuri, Jan Achterhold, Michael M\"oller, J\"org
St\"uckler
- Abstract要約: 本稿では,アクション条件付きビデオ表現ネットワーク内の物理エンジンを用いて物理潜在表現を学習する手法を提案する。
われわれのネットワークは、画像のエンコードと、ビデオやアクションシーケンスからの質量や摩擦などの物理的特性の同定を学習できることを実証する。
- 参考スコア(独自算出の注目度): 2.15242029196761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video representation learning has recently attracted attention in computer
vision due to its applications for activity and scene forecasting or
vision-based planning and control. Video prediction models often learn a latent
representation of video which is encoded from input frames and decoded back
into images. Even when conditioned on actions, purely deep learning based
architectures typically lack a physically interpretable latent space. In this
study, we use a differentiable physics engine within an action-conditional
video representation network to learn a physical latent representation. We
propose supervised and self-supervised learning methods to train our network
and identify physical properties. The latter uses spatial transformers to
decode physical states back into images. The simulation scenarios in our
experiments comprise pushing, sliding and colliding objects, for which we also
analyze the observability of the physical properties. In experiments we
demonstrate that our network can learn to encode images and identify physical
properties like mass and friction from videos and action sequences in the
simulated scenarios. We evaluate the accuracy of our supervised and
self-supervised methods and compare it with a system identification baseline
which directly learns from state trajectories. We also demonstrate the ability
of our method to predict future video frames from input images and actions.
- Abstract(参考訳): 近年,映像表現学習がコンピュータビジョンに注目されている。
ビデオ予測モデルは、しばしば入力フレームからエンコードされ、画像にデコードされるビデオの潜在表現を学習する。
アクションが条件付きであっても、純粋にディープラーニングベースのアーキテクチャは、物理的に解釈可能な潜在空間を欠いている。
本研究では,動作条件映像表現ネットワーク内の微分可能な物理エンジンを用いて,物理的潜在表現を学習する。
本稿では,ネットワークを学習し,物理的特性を識別するための教師付き自己教師型学習手法を提案する。
後者は空間トランスフォーマーを使って物理的状態を画像にデコードする。
実験におけるシミュレーションシナリオは, 物体の押・滑動・衝突を想定し, 物理特性の可観測性も解析した。
実験では,ネットワークが画像の符号化を学習し,シミュレーションシナリオで映像と映像との摩擦や動作シーケンスなどの物理的特性を識別できることを実証する。
我々は, 教師付きおよび自己教師付き手法の精度を評価し, 状態軌跡から直接学習するシステム同定ベースラインと比較する。
また,入力画像や動作から将来の映像フレームを予測する能力についても示す。
関連論文リスト
- Learning to See Physical Properties with Active Sensing Motor Policies [20.851419392513503]
本稿では,観測された地形を入力とし,物理的特性を予測する視覚システム構築の課題を克服する手法を提案する。
本稿では,身体的パラメータを推定する精度を高めるため,運動行動の学習を目的としたアクティブセンシングモータポリシ(ASMP)を紹介する。
訓練されたシステムは頑丈で、地上を歩いている四足歩行ロボットのカメラが収集したデータに基づいて訓練されているにもかかわらず、ドローンが捉えたオーバーヘッド画像でも機能する。
論文 参考訳(メタデータ) (2023-11-02T17:19:18Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Cross-Identity Motion Transfer for Arbitrary Objects through
Pose-Attentive Video Reassembling [40.20163225821707]
ソース画像とドライビングビデオが与えられた場合、このネットワークは、ドライビングビデオの動きに応じて、ソース画像中の被写体をアニメーション化する。
注意機構では、学習した音源のキーポイントと駆動画像との密接な類似性が計算される。
自己教師型学習のトレーニングテストの相違を低減するため、新しいクロスアイデンティティトレーニングスキームが導入された。
論文 参考訳(メタデータ) (2020-07-17T07:21:12Z) - Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。
本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。
私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文 参考訳(メタデータ) (2020-05-12T10:11:00Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。