論文の概要: From Single Images to Motion Policies via Video-Generation Environment Representations
- arxiv url: http://arxiv.org/abs/2505.19306v1
- Date: Sun, 25 May 2025 20:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.042895
- Title: From Single Images to Motion Policies via Video-Generation Environment Representations
- Title(参考訳): 映像生成環境表現によるシングルイメージからモーションポリシーへ
- Authors: Weiming Zhi, Ziyong Ma, Tianyi Zhang, Matthew Johnson-Roberson,
- Abstract要約: ビデオ生成環境表現(VGER)と呼ばれるフレームワークを提案する。
移動カメラビデオのフレームは、トレーニング済みの3D基礎モデルに入力され、密度の高い点雲を生成する。
次に、環境構造の暗黙的な表現を訓練し、その表現の幾何学に準拠する動き生成モデルを構築するために、マルチスケールノイズアプローチを導入する。
- 参考スコア(独自算出の注目度): 13.58353565350936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous robots typically need to construct representations of their surroundings and adapt their motions to the geometry of their environment. Here, we tackle the problem of constructing a policy model for collision-free motion generation, consistent with the environment, from a single input RGB image. Extracting 3D structures from a single image often involves monocular depth estimation. Developments in depth estimation have given rise to large pre-trained models such as DepthAnything. However, using outputs of these models for downstream motion generation is challenging due to frustum-shaped errors that arise. Instead, we propose a framework known as Video-Generation Environment Representation (VGER), which leverages the advances of large-scale video generation models to generate a moving camera video conditioned on the input image. Frames of this video, which form a multiview dataset, are then input into a pre-trained 3D foundation model to produce a dense point cloud. We then introduce a multi-scale noise approach to train an implicit representation of the environment structure and build a motion generation model that complies with the geometry of the representation. We extensively evaluate VGER over a diverse set of indoor and outdoor environments. We demonstrate its ability to produce smooth motions that account for the captured geometry of a scene, all from a single RGB input image.
- Abstract(参考訳): 自律ロボットは通常、周囲の表現を構築し、その動きを環境の幾何学に適応させる必要がある。
本稿では、単一入力RGB画像から環境に整合した衝突のない動き生成のためのポリシーモデルを構築する問題に取り組む。
単一の画像から3D構造を抽出することは、しばしば単眼深度推定を伴う。
深度推定の発展により、DepthAnythingのような大規模な事前学習モデルが生まれている。
しかし,これらのモデルの出力を下流運動生成に利用することはフラストタル形状の誤差が生じるため困難である。
その代わりに,大規模な映像生成モデルの進歩を活用して,入力画像に条件付き移動カメラ映像を生成する,VGER(Video-Generation Environment Representation)というフレームワークを提案する。
マルチビューデータセットを形成するこのビデオのフレームは、トレーニング済みの3Dファンデーションモデルに入力され、密度の高い点雲を生成する。
次に、環境構造の暗黙的な表現を訓練し、その表現の幾何学に準拠する動き生成モデルを構築するために、マルチスケールノイズアプローチを導入する。
室内および屋外の多様な環境において,VGERを広範囲に評価した。
我々は,1枚のRGB入力画像から,シーンの捕獲された形状を考慮したスムーズな動きを生成できることを実証した。
関連論文リスト
- Learning Multi-frame and Monocular Prior for Estimating Geometry in Dynamic Scenes [56.936178608296906]
我々は,MMPと呼ばれる新しいモデルを提案し,その形状をフィードフォワード方式で推定する。
近年のシームズアーキテクチャに基づいて,新しい軌道符号化モジュールを導入する。
MMPはフィードフォワードのポイントマップ予測において最先端の品質を実現することができる。
論文 参考訳(メタデータ) (2025-05-03T08:28:15Z) - Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。
具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。
生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文 参考訳(メタデータ) (2024-08-10T08:09:57Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - GAUDI: A Neural Architect for Immersive 3D Scene Generation [67.97817314857917]
GAUDIは、動くカメラから没入的にレンダリングできる複雑な3Dシーンの分布をキャプチャできる生成モデルである。
GAUDIは,複数のデータセットにまたがる非条件生成環境において,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-27T19:10:32Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。