論文の概要: Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control
- arxiv url: http://arxiv.org/abs/2503.14492v1
- Date: Tue, 18 Mar 2025 17:57:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:17.099127
- Title: Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control
- Title(参考訳): Cosmos-Transfer1:適応型マルチモーダル制御による条件付きワールドジェネレーション
- Authors: NVIDIA, :, Hassan Abu Alhaija, Jose Alvarez, Maciej Bala, Tiffany Cai, Tianshi Cao, Liz Cha, Joshua Chen, Mike Chen, Francesco Ferroni, Sanja Fidler, Dieter Fox, Yunhao Ge, Jinwei Gu, Ali Hassani, Michael Isaev, Pooya Jannaty, Shiyi Lan, Tobias Lasser, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Fabio Ramos, Xuanchi Ren, Tianchang Shen, Shitao Tang, Ting-Chun Wang, Jay Wu, Jiashu Xu, Stella Xu, Kevin Xie, Yuchong Ye, Xiaodong Yang, Xiaohui Zeng, Yu Zeng,
- Abstract要約: 複数の空間制御入力に基づいて世界シミュレーションを生成する条件付き世界生成モデルであるCosmos-Transferを導入する。
提案したモデルを解析し,ロボット2Realや自律走行車データ豊かさを含む物理AIへの応用を実証するために評価を行う。
- 参考スコア(独自算出の注目度): 98.20899250251792
- License:
- Abstract: We introduce Cosmos-Transfer, a conditional world generation model that can generate world simulations based on multiple spatial control inputs of various modalities such as segmentation, depth, and edge. In the design, the spatial conditional scheme is adaptive and customizable. It allows weighting different conditional inputs differently at different spatial locations. This enables highly controllable world generation and finds use in various world-to-world transfer use cases, including Sim2Real. We conduct extensive evaluations to analyze the proposed model and demonstrate its applications for Physical AI, including robotics Sim2Real and autonomous vehicle data enrichment. We further demonstrate an inference scaling strategy to achieve real-time world generation with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the field, we open-source our models and code at https://github.com/nvidia-cosmos/cosmos-transfer1.
- Abstract(参考訳): セグメンテーション,深さ,エッジといった様々なモードの空間制御入力に基づいて,世界シミュレーションを生成可能な条件付き世界生成モデルであるCosmos-Transferを紹介する。
設計においては、空間条件スキームは適応的でカスタマイズ可能である。
異なる空間位置における異なる条件入力の重み付けを可能にする。
これにより、高度に制御可能なワールドジェネレーションが可能になり、Sim2Realなど、さまざまなワールド・ツー・ワールド・トランスファーのユースケースで使用することができる。
提案したモデルを分析し,ロボットSim2Realや自律走行車データ豊かさを含む物理AIへの応用を実証するために,広範な評価を行う。
さらに、NVIDIA GB200 NVL72ラックを用いて、リアルタイムなワールドジェネレーションを実現するための推論スケーリング戦略を示す。
この分野における研究の加速を支援するため、我々のモデルとコードをhttps://github.com/nvidia-cosmos/cosmos-transfer1.comでオープンソース化した。
関連論文リスト
- Trajectory World Models for Heterogeneous Environments [67.27233466954814]
環境を横断するセンサーやアクチュエータの不均一性は、大規模な事前訓練された世界モデルを構築する上で大きな課題となる。
我々は80の環境から100万以上のトラジェクトリからなる統一データセットUniTrajを紹介した。
本稿では,様々なセンサやアクチュエータ情報を柔軟に処理し,環境ダイナミクスをコンテキスト内で捉えることのできる,新しいアーキテクチャであるTrajWorldを提案する。
論文 参考訳(メタデータ) (2025-02-03T13:59:08Z) - Bridging the Sim2Real Gap: Vision Encoder Pre-Training for Visuomotor Policy Transfer [0.0]
「Sim2Real」の流通シフトは、シミュレーションから現実への政策移行の成功を防ぐ。
本研究は,Sim2Realギャップに対処するために,視覚エンコーダの大規模事前学習の可能性を検討する。
論文 参考訳(メタデータ) (2025-01-26T00:27:04Z) - Domain Adaptive Graph Neural Networks for Constraining Cosmological Parameters Across Multiple Data Sets [40.19690479537335]
DA-GNNは,データセット間のタスクにおいて高い精度とロバスト性を実現する。
このことは、DA-GNNがドメインに依存しない宇宙情報を抽出するための有望な方法であることを示している。
論文 参考訳(メタデータ) (2023-11-02T20:40:21Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - TrafficBots: Towards World Models for Autonomous Driving Simulation and
Motion Prediction [149.5716746789134]
我々は,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示した。
動作予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介する。
オープンモーションデータセットの実験は、TrafficBotsが現実的なマルチエージェント動作をシミュレートできることを示している。
論文 参考訳(メタデータ) (2023-03-07T18:28:41Z) - Deep Generative Framework for Interactive 3D Terrain Authoring and
Manipulation [4.202216894379241]
本稿では,VAEと生成条件GANモデルを組み合わせた新しいランドスケープオーサリングフレームワークを提案する。
我々のフレームワークは実世界の地形データセットから潜在空間を学習することで既存の手法の限界を克服しようとする例に基づく手法である。
我々はまた、ユーザが最小限の入力で多様な地形を生成できるインタラクティブツールを開発した。
論文 参考訳(メタデータ) (2022-01-07T08:58:01Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。
本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-02T13:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。