論文の概要: Modeling the Real World with High-Density Visual Particle Dynamics
- arxiv url: http://arxiv.org/abs/2406.19800v1
- Date: Fri, 28 Jun 2024 10:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:10:02.985382
- Title: Modeling the Real World with High-Density Visual Particle Dynamics
- Title(参考訳): 高密度視覚粒子ダイナミクスを用いた実世界モデリング
- Authors: William F. Whitney, Jacob Varley, Deepali Jain, Krzysztof Choromanski, Sumeet Singh, Vikas Sindhwani,
- Abstract要約: HD-VPDは100K以上の粒子を含む巨大な潜在点雲を処理することで、現実のシーンの物理力学をエミュレートすることができる。
RGB-Dカメラを2台搭載した高自由度バイマニュアルロボットの動特性をモデル化し,HD-VPDの能力を示す。
- 参考スコア(独自算出の注目度): 20.796262251477504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present High-Density Visual Particle Dynamics (HD-VPD), a learned world model that can emulate the physical dynamics of real scenes by processing massive latent point clouds containing 100K+ particles. To enable efficiency at this scale, we introduce a novel family of Point Cloud Transformers (PCTs) called Interlacers leveraging intertwined linear-attention Performer layers and graph-based neighbour attention layers. We demonstrate the capabilities of HD-VPD by modeling the dynamics of high degree-of-freedom bi-manual robots with two RGB-D cameras. Compared to the previous graph neural network approach, our Interlacer dynamics is twice as fast with the same prediction quality, and can achieve higher quality using 4x as many particles. We illustrate how HD-VPD can evaluate motion plan quality with robotic box pushing and can grasping tasks. See videos and particle dynamics rendered by HD-VPD at https://sites.google.com/view/hd-vpd.
- Abstract(参考訳): 100K以上の粒子を含む巨大な潜点雲を処理し、実シーンの物理力学をエミュレートできる学習世界モデルである高密度視覚粒子ダイナミクス(HD-VPD)を提案する。
このスケールで効率を上げるために、我々はインターラッカーと呼ばれるポイントクラウドトランスフォーマー(PCT)の新たなファミリーを導入し、インターツツインされたリニアアテンションパーフォーマー層とグラフベースの隣接アテンション層を利用する。
RGB-Dカメラを2台搭載した高自由度バイマニュアルロボットの動特性をモデル化し,HD-VPDの能力を示す。
従来のグラフニューラルネットワークと比較して、Interlacerのダイナミクスは同じ予測精度で2倍の速さで、多くの粒子の4倍の精度を実現しています。
ロボットボックスを押下することで,HD-VPDが動作計画の質をどのように評価し,タスクを把握できるかを述べる。
HD-VPD が https://sites.google.com/view/hd-vpd でレンダリングしたビデオや粒子動力学を参照。
関連論文リスト
- EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
本稿では,3Dシーンを同時に再構築し,RGBエゴセントリック入力のみから3Dオブジェクトの動きを追跡するEgoGaussianについて紹介する。
我々のアプローチでは、人間の活動の動的な性質を活用するクリップレベルのオンライン学習パイプラインを採用している。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - NPGA: Neural Parametric Gaussian Avatars [46.52887358194364]
マルチビュー映像記録から高忠実度制御可能なアバターを作成するためのデータ駆動方式を提案する。
我々は高効率なレンダリングのために3次元ガウススプラッティングを中心に手法を構築した。
提案手法をNeRSembleデータセット上で評価し,NPGAが従来の最先端アバターよりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-05-29T17:58:09Z) - VR-NeRF: High-Fidelity Virtualized Walkable Spaces [55.51127858816994]
本稿では,高忠実度キャプチャ,モデル再構成,リアルタイムレンダリングのためのエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2023-11-05T02:03:14Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z) - Controllable Video Generation by Learning the Underlying Dynamical
System with Neural ODE [7.330875731393098]
動的システムを学ぶことによって制御可能なビデオを生成することは、コンピュータビジョンコミュニティにおいて重要で未発見のトピックである。
本稿では,静的画像とテキストキャプションから高制御可能なビデオを生成するための新しいフレームワークTiV-ODEを提案する。
論文 参考訳(メタデータ) (2023-03-09T15:13:51Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Real-time Deep Dynamic Characters [95.5592405831368]
本研究では,高度にリアルな形状,動き,ダイナミックな外観を示す3次元人物モデルを提案する。
我々は,新しいグラフ畳み込みネットワークアーキテクチャを用いて,身体と衣服の運動依存的変形学習を実現する。
本モデルでは, 運動依存的表面変形, 物理的に妥当な動的衣服変形, および映像現実的表面テクスチャを, 従来よりも細部まで高レベルに生成することを示す。
論文 参考訳(メタデータ) (2021-05-04T23:28:55Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。