Fugu-MT 論文翻訳(概要): Hindsight for Foresight: Unsupervised Structured Dynamics Models from Physical Interaction

論文の概要: Hindsight for Foresight: Unsupervised Structured Dynamics Models from Physical Interaction

arxiv url: http://arxiv.org/abs/2008.00456v1
Date: Sun, 2 Aug 2020 11:04:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-03 19:38:56.622142
Title: Hindsight for Foresight: Unsupervised Structured Dynamics Models from Physical Interaction
Title（参考訳）: 今後の展望:物理相互作用による教師なし構造力学モデル
Authors: Iman Nematollahi and Oier Mees and Lukas Hermann and Wolfram Burgard
Abstract要約: エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 24.72947291987545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A key challenge for an agent learning to interact with the world is to reason about physical properties of objects and to foresee their dynamics under the effect of applied forces. In order to scale learning through interaction to many objects and scenes, robots should be able to improve their own performance from real-world experience without requiring human supervision. To this end, we propose a novel approach for modeling the dynamics of a robot's interactions directly from unlabeled 3D point clouds and images. Unlike previous approaches, our method does not require ground-truth data associations provided by a tracker or any pre-trained perception network. To learn from unlabeled real-world interaction data, we enforce consistency of estimated 3D clouds, actions and 2D images with observed ones. Our joint forward and inverse network learns to segment a scene into salient object parts and predicts their 3D motion under the effect of applied actions. Moreover, our object-centric model outputs action-conditioned 3D scene flow, object masks and 2D optical flow as emergent properties. Our extensive evaluation both in simulation and with real-world data demonstrates that our formulation leads to effective, interpretable models that can be used for visuomotor control and planning. Videos, code and dataset are available at http://hind4sight.cs.uni-freiburg.de
Abstract（参考訳）: エージェントが世界と相互作用することを学ぶ上で重要な課題は、物体の物理的性質を推論し、応用力の影響下でそのダイナミクスを予見することである。多くのオブジェクトやシーンとのインタラクションを通じて学習をスケールするためには、ロボットは人間の監督を必要とせず、現実の体験から自身のパフォーマンスを向上させる必要がある。そこで本研究では,ラベルのない3次元点雲や画像からロボットのインタラクションのダイナミクスをモデル化する新しい手法を提案する。従来のアプローチとは異なり,本手法ではトラッカや事前学習された知覚ネットワークによって提供される地上データアソシエーションは不要である。ラベルのない実世界のインタラクションデータから学ぶために,推定3dクラウド,アクション,および2dイメージの一貫性を観測データで強制する。共同フォワードおよび逆ネットワークは,シーンをサルエント対象に分割し,適用された動作の影響下での3次元動作を予測する。さらに,動作条件付き3次元シーンフロー,オブジェクトマスク,2次元光フローを創発特性として出力する。シミュレーションと実世界のデータの両方において、我々の定式化がビジュモータ制御と計画に使用できる効果的な解釈可能なモデルをもたらすことを示す。ビデオ、コード、データセットはhttp://hind4sight.cs.uni-freiburg.deで利用可能である。

関連論文リスト

Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文参考訳（メタデータ） (2025-03-25T23:55:47Z)
Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文参考訳（メタデータ） (2024-09-24T17:59:56Z)
RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing [38.97168020979433]
本稿では, 視覚と触覚を組み合わせ, 触覚インフォームド・ダイナミックスモデルを学習することでロボット操作を実現するアプローチを提案する。提案するフレームワークであるRoboPackは、オブジェクト状態を推定するために、リカレントグラフニューラルネットワークを使用している。我々は,非包括的操作と密包装作業に対するソフトバブル触覚センサを備えた実ロボットへのアプローチを実証する。
論文参考訳（メタデータ） (2024-07-01T16:08:37Z)
EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文参考訳（メタデータ） (2024-06-28T10:39:36Z)
DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-03-09T12:22:46Z)
Learn to Predict How Humans Manipulate Large-sized Objects from Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文参考訳（メタデータ） (2022-06-25T09:55:39Z)
3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文参考訳（メタデータ） (2021-07-08T17:49:37Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文参考訳（メタデータ） (2020-11-12T16:15:52Z)
Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文参考訳（メタデータ） (2020-11-03T19:23:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。