論文の概要: Modeling the Real World with High-Density Visual Particle Dynamics
- arxiv url: http://arxiv.org/abs/2406.19800v1
- Date: Fri, 28 Jun 2024 10:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:10:02.985382
- Title: Modeling the Real World with High-Density Visual Particle Dynamics
- Title(参考訳): 高密度視覚粒子ダイナミクスを用いた実世界モデリング
- Authors: William F. Whitney, Jacob Varley, Deepali Jain, Krzysztof Choromanski, Sumeet Singh, Vikas Sindhwani,
- Abstract要約: HD-VPDは100K以上の粒子を含む巨大な潜在点雲を処理することで、現実のシーンの物理力学をエミュレートすることができる。
RGB-Dカメラを2台搭載した高自由度バイマニュアルロボットの動特性をモデル化し,HD-VPDの能力を示す。
- 参考スコア(独自算出の注目度): 20.796262251477504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present High-Density Visual Particle Dynamics (HD-VPD), a learned world model that can emulate the physical dynamics of real scenes by processing massive latent point clouds containing 100K+ particles. To enable efficiency at this scale, we introduce a novel family of Point Cloud Transformers (PCTs) called Interlacers leveraging intertwined linear-attention Performer layers and graph-based neighbour attention layers. We demonstrate the capabilities of HD-VPD by modeling the dynamics of high degree-of-freedom bi-manual robots with two RGB-D cameras. Compared to the previous graph neural network approach, our Interlacer dynamics is twice as fast with the same prediction quality, and can achieve higher quality using 4x as many particles. We illustrate how HD-VPD can evaluate motion plan quality with robotic box pushing and can grasping tasks. See videos and particle dynamics rendered by HD-VPD at https://sites.google.com/view/hd-vpd.
- Abstract(参考訳): 100K以上の粒子を含む巨大な潜点雲を処理し、実シーンの物理力学をエミュレートできる学習世界モデルである高密度視覚粒子ダイナミクス(HD-VPD)を提案する。
このスケールで効率を上げるために、我々はインターラッカーと呼ばれるポイントクラウドトランスフォーマー(PCT)の新たなファミリーを導入し、インターツツインされたリニアアテンションパーフォーマー層とグラフベースの隣接アテンション層を利用する。
RGB-Dカメラを2台搭載した高自由度バイマニュアルロボットの動特性をモデル化し,HD-VPDの能力を示す。
従来のグラフニューラルネットワークと比較して、Interlacerのダイナミクスは同じ予測精度で2倍の速さで、多くの粒子の4倍の精度を実現しています。
ロボットボックスを押下することで,HD-VPDが動作計画の質をどのように評価し,タスクを把握できるかを述べる。
HD-VPD が https://sites.google.com/view/hd-vpd でレンダリングしたビデオや粒子動力学を参照。
関連論文リスト
- VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - NPGA: Neural Parametric Gaussian Avatars [46.52887358194364]
マルチビュー映像記録から高忠実度制御可能なアバターを作成するためのデータ駆動方式を提案する。
我々は,高効率なレンダリングのための3次元ガウススプラッティングの手法を構築し,点雲のトポロジカルな柔軟性を継承する。
提案手法をNeRSembleデータセット上で評価し,NPGAが従来の自己再現タスクの2.6PSNRよりも有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-05-29T17:58:09Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - VR-NeRF: High-Fidelity Virtualized Walkable Spaces [55.51127858816994]
本稿では,高忠実度キャプチャ,モデル再構成,リアルタイムレンダリングのためのエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2023-11-05T02:03:14Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z) - Controllable Video Generation by Learning the Underlying Dynamical
System with Neural ODE [7.330875731393098]
動的システムを学ぶことによって制御可能なビデオを生成することは、コンピュータビジョンコミュニティにおいて重要で未発見のトピックである。
本稿では,静的画像とテキストキャプションから高制御可能なビデオを生成するための新しいフレームワークTiV-ODEを提案する。
論文 参考訳(メタデータ) (2023-03-09T15:13:51Z) - Real-time Deep Dynamic Characters [95.5592405831368]
本研究では,高度にリアルな形状,動き,ダイナミックな外観を示す3次元人物モデルを提案する。
我々は,新しいグラフ畳み込みネットワークアーキテクチャを用いて,身体と衣服の運動依存的変形学習を実現する。
本モデルでは, 運動依存的表面変形, 物理的に妥当な動的衣服変形, および映像現実的表面テクスチャを, 従来よりも細部まで高レベルに生成することを示す。
論文 参考訳(メタデータ) (2021-05-04T23:28:55Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。