Fugu-MT 論文翻訳(概要): Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

論文の概要: Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

arxiv url: http://arxiv.org/abs/2405.17398v3
Date: Fri, 19 Jul 2024 13:20:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 23:08:01.279841
Title: Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability
Title（参考訳）: Vista: 高い忠実度とVersatile制御性を備えた汎用駆動型世界モデル
Authors: Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, Hongyang Li,
Abstract要約: 本稿では,高忠実度かつ多目的な制御性を有する一般化可能な運転世界モデルであるVistaを提案する。本稿では,移動インスタンスと構造情報の学習を促進するために,新たな2つの損失を提案する。動作制御性には,高レベルな意図から低レベルな操作に至るまで,多種多様な制御が組み込まれている。
参考スコア（独自算出の注目度）: 42.47308618500723
License: http://creativecommons.org/licenses/by/4.0/
Abstract: World models can foresee the outcomes of different actions, which is of paramount importance for autonomous driving. Nevertheless, existing driving world models still have limitations in generalization to unseen environments, prediction fidelity of critical details, and action controllability for flexible application. In this paper, we present Vista, a generalizable driving world model with high fidelity and versatile controllability. Based on a systematic diagnosis of existing methods, we introduce several key ingredients to address these limitations. To accurately predict real-world dynamics at high resolution, we propose two novel losses to promote the learning of moving instances and structural information. We also devise an effective latent replacement approach to inject historical frames as priors for coherent long-horizon rollouts. For action controllability, we incorporate a versatile set of controls from high-level intentions (command, goal point) to low-level maneuvers (trajectory, angle, and speed) through an efficient learning strategy. After large-scale training, the capabilities of Vista can seamlessly generalize to different scenarios. Extensive experiments on multiple datasets show that Vista outperforms the most advanced general-purpose video generator in over 70% of comparisons and surpasses the best-performing driving world model by 55% in FID and 27% in FVD. Moreover, for the first time, we utilize the capacity of Vista itself to establish a generalizable reward for real-world action evaluation without accessing the ground truth actions.
Abstract（参考訳）: 世界モデルは異なる行動の結果を予測することができ、これは自動運転にとって最重要事項である。それでも、既存の駆動世界モデルには、目に見えない環境への一般化、重要な詳細の予測精度、フレキシブルなアプリケーションに対するアクション制御性に制限がある。本稿では,高忠実度かつ多目的な制御性を有する一般化可能な運転世界モデルであるVistaを提案する。既存の手法の体系的診断に基づいて,これらの制約に対処するための重要な要素をいくつか紹介する。実世界のダイナミクスを高精度に予測するために,移動インスタンスと構造情報の学習を促進するために,2つの新たな損失を提案する。また,コヒーレントなロングホライゾンロールアウトの先行として,過去のフレームを注入する有効な潜在代替手法も考案した。動作制御性には,高レベルな意図(コマンド,ゴールポイント)から低レベルな操作(軌道,角度,速度)まで,効率的な学習戦略を通じて多種多様な制御を組み込む。大規模なトレーニングの後、Vistaの機能はさまざまなシナリオにシームレスに一般化できる。複数のデータセットに対する大規模な実験によると、Vistaは比較の70%以上で最も高度な汎用ビデオジェネレータを上回り、FIDでは55%、FVDでは27%を上回っている。さらに,Vista自体の能力を活用して,現実の行動評価に基礎となる真実の行動にアクセスすることなく,一般化可能な報酬を確立する。

関連論文リスト

Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文参考訳（メタデータ） (2025-06-24T17:59:57Z)
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [32.83715417294052]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文参考訳（メタデータ） (2025-05-09T15:11:13Z)
AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文参考訳（メタデータ） (2025-03-24T17:58:15Z)
On-Board Vision-Language Models for Personalized Autonomous Vehicle Motion Control: System Design and Real-World Validation [17.085548386025412]
VLM(Vision-Language Models)は、パーソナライズドライビングのための有望なソリューションを提供する。本稿では,低レイテンシなパーソナライズドライビング性能を実現する軽量で効果的なVLMフレームワークを提案する。我々のシステムは、様々なシナリオで安全で快適でパーソナライズされた運転体験を提供する能力を示した。
論文参考訳（メタデータ） (2024-11-17T23:20:37Z)
WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making [40.53824201182517]
本稿では、一般化可能な世界モデルを学ぶためのフレームワークであるWHALEを紹介する。 Whale-STは、拡張一般化性を備えた時空間変圧器を用いたスケーラブルな世界モデルである。また、Open X-Embodimentデータセットから970K軌道上でトレーニングされた414MパラメータワールドモデルであるWhale-Xを提案する。
論文参考訳（メタデータ） (2024-11-08T15:01:27Z)
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文参考訳（メタデータ） (2024-02-06T06:30:34Z)
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文参考訳（メタデータ） (2023-11-29T18:59:47Z)
Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。我々は、切り離された潜在的想像力に基づいて政策最適化を行う。これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文参考訳（メタデータ） (2023-03-27T02:55:56Z)
Driver Dojo: A Benchmark for Generalizable Reinforcement Learning for Autonomous Driving [1.496194593196997]
自律運転のための一般化可能な強化学習のためのベンチマークを提案する。アプリケーション指向のベンチマークは、設計決定の影響をよりよく理解します。我々のベンチマークは、研究者がシナリオをまたいでうまく一般化できるソリューションを提案することを奨励することを目的としている。
論文参考訳（メタデータ） (2022-07-23T06:29:43Z)
Isolating and Leveraging Controllable and Noncontrollable Visual Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文参考訳（メタデータ） (2022-05-27T08:07:39Z)
Learning to drive from a world on rails [78.28647825246472]
モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。
論文参考訳（メタデータ） (2021-05-03T05:55:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。