論文の概要: Scaling Face Interaction Graph Networks to Real World Scenes
- arxiv url: http://arxiv.org/abs/2401.11985v1
- Date: Mon, 22 Jan 2024 14:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:45:34.039168
- Title: Scaling Face Interaction Graph Networks to Real World Scenes
- Title(参考訳): 顔インタラクショングラフネットワークを実世界のシーンに拡張する
- Authors: Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias
Pfaff, Kimberly Stachenfeld, Kelsey R. Allen
- Abstract要約: 本稿では,グラフベースの学習シミュレータの実行に必要なメモリを大幅に削減する手法を提案する。
提案手法は,従来のグラフベースシミュレータに比べて,精度を保ちながらメモリ使用量が大幅に少ないことを示す。
これにより、学習したシミュレータの応用を、推論時に知覚情報しか利用できない設定に拡張する道が開ける。
- 参考スコア(独自算出の注目度): 12.519862235430153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately simulating real world object dynamics is essential for various
applications such as robotics, engineering, graphics, and design. To better
capture complex real dynamics such as contact and friction, learned simulators
based on graph networks have recently shown great promise. However, applying
these learned simulators to real scenes comes with two major challenges: first,
scaling learned simulators to handle the complexity of real world scenes which
can involve hundreds of objects each with complicated 3D shapes, and second,
handling inputs from perception rather than 3D state information. Here we
introduce a method which substantially reduces the memory required to run
graph-based learned simulators. Based on this memory-efficient simulation
model, we then present a perceptual interface in the form of editable NeRFs
which can convert real-world scenes into a structured representation that can
be processed by graph network simulator. We show that our method uses
substantially less memory than previous graph-based simulators while retaining
their accuracy, and that the simulators learned in synthetic environments can
be applied to real world scenes captured from multiple camera angles. This
paves the way for expanding the application of learned simulators to settings
where only perceptual information is available at inference time.
- Abstract(参考訳): ロボット工学、工学、グラフィック、デザインなどの様々な応用において、現実世界のオブジェクトの正確なシミュレーションが不可欠である。
接触や摩擦といった複雑な現実のダイナミクスをよりよく捉えるために、グラフネットワークに基づく学習シミュレータは、最近大きな可能性を秘めている。
しかし、これらの学習されたシミュレータを現実のシーンに適用するには、2つの大きな課題がある: まず、学習したシミュレータをスケーリングして、複雑な3D形状の数百のオブジェクトを含む実世界のシーンの複雑さを扱う。
本稿では,グラフベースの学習シミュレータの実行に必要なメモリを大幅に削減する手法を提案する。
このメモリ効率のシミュレーションモデルに基づいて、現実のシーンをグラフネットワークシミュレータで処理可能な構造化表現に変換することができる編集可能なNeRFの形で知覚インターフェースを提示する。
提案手法は,従来のグラフベースのシミュレータに比べて,精度を保ちながらメモリを著しく少なくし,合成環境で学習したシミュレータを複数のカメラアングルから取得した実世界シーンに適用可能であることを示す。
これにより、学習シミュレータの応用を推論時に知覚情報のみを利用できる設定に拡張する手段が整う。
関連論文リスト
- Learning rigid-body simulators over implicit shapes for large-scale scenes and vision [11.815473102158368]
本稿では,SDF-Simについて紹介する。
学習した符号距離関数(SDF)を用いて物体形状を表現し,距離計算を高速化する。
文学において初めて、GNNベースのシミュレータを数百のオブジェクトと最大1100万ノードのシーンに拡張できることを実証した。
論文 参考訳(メタデータ) (2024-05-22T22:32:04Z) - URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images [39.0780707100513]
そこで本研究では,実世界の画像からキネマティック構造と動的構造を合成したシミュレーションシーンを生成するエンドツーエンドパイプラインを提案する。
そこで本研究は,大規模シミュレーション環境のためのパイプラインと,ロバストなロボット制御ポリシをトレーニングするための統合システムの両方を提供する。
論文 参考訳(メタデータ) (2024-05-19T20:01:29Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Learning 3D Particle-based Simulators from RGB-D Videos [15.683877597215494]
本研究では,シミュレータを直接観測から学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現を共同で学習する。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
論文 参考訳(メタデータ) (2023-12-08T20:45:34Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。
まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。
得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文 参考訳(メタデータ) (2021-01-16T23:00:33Z) - Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。
本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。
私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文 参考訳(メタデータ) (2020-05-12T10:11:00Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。