論文の概要: Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel
Space
- arxiv url: http://arxiv.org/abs/2202.00368v1
- Date: Tue, 1 Feb 2022 12:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 13:55:23.809479
- Title: Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel
Space
- Title(参考訳): Filtered-CoPhy: ピクセル空間における非教師なしの対物物理学習
- Authors: Steeven Janny, Fabien Baradel, Natalia Neverova, Madiha Nadri, Greg
Mori, Christian Wolf
- Abstract要約: 高次元データ(画像,ビデオ)における因果関係の学習方法を提案する。
我々の手法は、いかなる根拠となる真実の位置や他の対象物やシーン特性の知識や監督も必要としない。
我々は,画素空間における予測のための新しい挑戦的かつ慎重に設計された反実的ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 43.654464513994164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning causal relationships in high-dimensional data (images, videos) is a
hard task, as they are often defined on low dimensional manifolds and must be
extracted from complex signals dominated by appearance, lighting, textures and
also spurious correlations in the data. We present a method for learning
counterfactual reasoning of physical processes in pixel space, which requires
the prediction of the impact of interventions on initial conditions. Going
beyond the identification of structural relationships, we deal with the
challenging problem of forecasting raw video over long horizons. Our method
does not require the knowledge or supervision of any ground truth positions or
other object or scene properties. Our model learns and acts on a suitable
hybrid latent representation based on a combination of dense features, sets of
2D keypoints and an additional latent vector per keypoint. We show that this
better captures the dynamics of physical processes than purely dense or sparse
representations. We introduce a new challenging and carefully designed
counterfactual benchmark for predictions in pixel space and outperform strong
baselines in physics-inspired ML and video prediction.
- Abstract(参考訳): 高次元データ(画像、ビデオ)で因果関係を学ぶことは難しい作業であり、それらはしばしば低次元多様体上で定義され、データの外観、照明、テクスチャ、そしてスプリアス相関によって支配される複雑な信号から抽出されなければならない。
本稿では,初期条件に対する介入の影響を予測するため,画素空間における物理過程の反実的推論を学習する手法を提案する。
構造的関係の同定を超えて、長い地平線上で生動画を予測するという困難な問題に対処する。
本手法は基礎的真理位置や他の対象やシーン特性の知識や監督を必要としない。
本モデルは,高密度特徴,2次元キーポイントの集合,およびキーポイント当たりの付加潜在ベクトルの組み合わせに基づいて,適切なハイブリッド潜在表現を学習し,作用する。
これは、純粋に密度が高いあるいは疎い表現よりも、物理過程のダイナミクスを捉えるのがよいことを示す。
我々は,画素空間における予測と物理に着想を得たMLとビデオ予測における強いベースラインを上回り,挑戦的で慎重に設計された反実的ベンチマークを導入する。
関連論文リスト
- 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Entropy-driven Unsupervised Keypoint Representation Learning in Videos [7.940371647421243]
本稿では,ビデオから意味のある表現を教師なしで学習するための新しいアプローチを提案する。
画素近傍のテクスティカルなエントロピーとその時間的進化は,特徴の学習に有用な本質的な監督信号を生み出すと論じる。
私たちの経験的な結果は、静的なオブジェクトや動的オブジェクトへの出席や突然の入場や退場といった課題を解決する情報駆動キーポイントのパフォーマンスに優れています。
論文 参考訳(メタデータ) (2022-09-30T12:03:52Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Towards an Interpretable Latent Space in Structured Models for Video
Prediction [30.080907495461876]
基礎となる物理力学が支配するビデオにおける将来のフレーム予測の課題に焦点をあてる。
我々は、オブジェクト中心のモデル、すなわち、オブジェクト表現を明示的に扱うモデルで作業し、潜在空間における損失を伝播する。
論文 参考訳(メタデータ) (2021-07-16T05:37:16Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。