論文の概要: Vega: Learning to Drive with Natural Language Instructions
- arxiv url: http://arxiv.org/abs/2603.25741v2
- Date: Mon, 30 Mar 2026 09:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 13:48:18.832601
- Title: Vega: Learning to Drive with Natural Language Instructions
- Title(参考訳): Vega: 自然言語による学習
- Authors: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu,
- Abstract要約: 本稿では,命令ベースの生成と計画のための統合型ビジョン・ランゲージ・ワールド・アクションモデルであるVegaを提案する。
視覚入力(ビジョン)と言語指示(言語)の処理には自己回帰パラダイムを使用し、将来の予測を生成するには拡散パラダイムを用いる。
提案手法は優れた計画性能を達成し,強い指示追従能力を示す。
- 参考スコア(独自算出の注目度): 93.49357278917223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.
- Abstract(参考訳): ビジョン言語アクションモデルは、意思決定プロセスに言語を組み込むために、自律運転を再構築した。
しかし、既存のパイプラインのほとんどはシーン記述や推論にのみ言語モダリティを使用し、パーソナライズされた運転のために多様なユーザー指示に従う柔軟性を欠いている。
そこで我々はまず,約10万のシーンに,対応する軌跡による多様な運転指示を付加した大規模運転データセット(InstructScene)を構築した。
次に、命令ベースの生成と計画のための統合されたビジョンランゲージ・ワールド・アクションモデル、Vegaを提案する。
視覚入力(ビジョン)と言語指示(言語)の処理には自己回帰パラダイムを使用し、将来の予測(世界モデリング)と軌跡(行動)を生成するために拡散パラダイムを用いています。
我々は、モダリティ間の相互作用を可能にするために共同で注目し、より多くの機能のために異なるモダリティに対して個々のプロジェクション層を使用する。
大規模な実験により,提案手法は優れた計画性能を達成できるだけでなく,よりインテリジェントでパーソナライズされた運転システムを実現するための強力な指示追従能力を示すことが示された。
関連論文リスト
- Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation [0.0]
doScenesは、人間と車両の命令インタラクションの研究を促進するために設計された、新しいデータセットである。
DoScenesは命令と駆動応答のギャップを埋め、コンテキスト認識と適応計画を可能にする。
論文 参考訳(メタデータ) (2024-12-08T11:16:47Z) - OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving [12.004183122121042]
OccLLaMA (OccLLaMA) は、言語による世界モデルである。
私たちは、視覚、言語、行動のための統合されたマルチモーダル語彙を構築します。
OccLLaMAは複数のタスクで競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-05T06:30:01Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。
次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文 参考訳(メタデータ) (2022-01-17T10:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。