論文の概要: Towards an Interpretable Latent Space in Structured Models for Video
Prediction
- arxiv url: http://arxiv.org/abs/2107.07713v1
- Date: Fri, 16 Jul 2021 05:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 22:26:53.336987
- Title: Towards an Interpretable Latent Space in Structured Models for Video
Prediction
- Title(参考訳): 映像予測のための構造化モデルにおける解釈可能な潜在空間に向けて
- Authors: Rushil Gupta, Vishal Sharma, Yash Jain, Yitao Liang, Guy Van den
Broeck and Parag Singla
- Abstract要約: 基礎となる物理力学が支配するビデオにおける将来のフレーム予測の課題に焦点をあてる。
我々は、オブジェクト中心のモデル、すなわち、オブジェクト表現を明示的に扱うモデルで作業し、潜在空間における損失を伝播する。
- 参考スコア(独自算出の注目度): 30.080907495461876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We focus on the task of future frame prediction in video governed by
underlying physical dynamics. We work with models which are object-centric,
i.e., explicitly work with object representations, and propagate a loss in the
latent space. Specifically, our research builds on recent work by Kipf et al.
\cite{kipf&al20}, which predicts the next state via contrastive learning of
object interactions in a latent space using a Graph Neural Network. We argue
that injecting explicit inductive bias in the model, in form of general
physical laws, can help not only make the model more interpretable, but also
improve the overall prediction of model. As a natural by-product, our model can
learn feature maps which closely resemble actual object positions in the image,
without having any explicit supervision about the object positions at the
training time. In comparison with earlier works \cite{jaques&al20}, which
assume a complete knowledge of the dynamics governing the motion in the form of
a physics engine, we rely only on the knowledge of general physical laws, such
as, world consists of objects, which have position and velocity. We propose an
additional decoder based loss in the pixel space, imposed in a curriculum
manner, to further refine the latent space predictions. Experiments in multiple
different settings demonstrate that while Kipf et al. model is effective at
capturing object interactions, our model can be significantly more effective at
localising objects, resulting in improved performance in 3 out of 4 domains
that we experiment with. Additionally, our model can learn highly intrepretable
feature maps, resembling actual object positions.
- Abstract(参考訳): 基礎となる物理力学が支配するビデオにおける将来のフレーム予測の課題に焦点をあてる。
我々はオブジェクト中心のモデル、すなわちオブジェクト表現を明示的に扱うモデルで作業し、潜在空間における損失を伝播する。
具体的には、Kipfらによる最近の研究に基づいている。
グラフニューラルネットワークを用いて、潜在空間におけるオブジェクトインタラクションの対照的な学習を通じて、次の状態を予測する。
一般の物理法則の形で、モデルに明示的な帰納バイアスを注入することは、モデルをより解釈可能にするだけでなく、モデル全体の予測を改善するのにも役立ちます。
自然な副産物として,トレーニング時の対象位置を明示的に監視することなく,画像中の実際の対象位置と密接に類似した特徴マップを学習できる。
物理エンジンの形で運動を支配する力学の完全な知識を仮定した初期の著作である \cite{jaques&al20} と比較すると、私たちは、位置と速度を持つ物体からなる世界のような一般の物理法則の知識のみに依存している。
そこで,本研究では,画素空間の損失をカリキュラム的に加味し,潜在空間予測をさらに洗練するための追加デコーダを提案する。
複数の異なる設定での実験では、Kipfなどがそうである。
モデルはオブジェクトのインタラクションを捉えるのに効果的であり、私たちのモデルはオブジェクトのローカライズにはるかに効果的になり、実験する4つのドメインのうち3つでパフォーマンスが向上します。
さらに、我々のモデルは、実際のオブジェクトの位置に似た、非常に予測不可能な特徴マップを学べる。
関連論文リスト
- Learning Disentangled Representation in Object-Centric Models for Visual Dynamics Prediction via Transformers [11.155818952879146]
最近の研究は、オブジェクト中心の表現が学習力学の精度を大幅に向上させることを示した。
対象中心モデルにおける視覚力学予測の精度をさらに向上することは可能か?
我々は、オブジェクトが持つ可能性のある属性の種類について、具体的な仮定をすることなく、静的なイメージ citepnsb の場合のこのような非絡み合い表現を学習しようと試みる。
論文 参考訳(メタデータ) (2024-07-03T15:43:54Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z) - Predicting the Physical Dynamics of Unseen 3D Objects [65.49291702488436]
インパルス力を受ける平面上での3次元物体の動的挙動の予測に焦点をあてる。
我々の手法は、訓練中に目に見えない物体の形状や初期条件に一般化することができる。
我々のモデルは物理エンジンと実世界の両方のデータによるトレーニングをサポートすることができる。
論文 参考訳(メタデータ) (2020-01-16T06:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。