論文の概要: Natural Language Instructions for Scene-Responsive Human-in-the-Loop Motion Planning in Autonomous Driving using Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.04184v1
- Date: Wed, 04 Feb 2026 03:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.357592
- Title: Natural Language Instructions for Scene-Responsive Human-in-the-Loop Motion Planning in Autonomous Driving using Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルを用いた自律走行におけるシーン応答型ヒューマン・イン・ザ・ループ動作計画のための自然言語指導
- Authors: Angel Martinez-Sanchez, Parthib Roy, Ross Greer,
- Abstract要約: doScenesは、noScenesのグラウンドトゥルースモーションにフリーフォーム命令をリンクする最初の実世界のデータセットである。
オープンソースMLLMベースのエンドツーエンド駆動フレームワークであるOpenEMMAを採用しています。
我々は、doScenesディレクティブを乗客スタイルのプロンプトとしてOpenEMMAのビジョン言語インタフェースに統合する。
- 参考スコア(独自算出の注目度): 2.2727733134290813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-grounded driving, where passenger language guides trajectory planning, requires vehicles to understand intent before motion. However, most prior instruction-following planners rely on simulation or fixed command vocabularies, limiting real-world generalization. doScenes, the first real-world dataset linking free-form instructions (with referentiality) to nuScenes ground-truth motion, enables instruction-conditioned planning. In this work, we adapt OpenEMMA, an open-source MLLM-based end-to-end driving framework that ingests front-camera views and ego-state and outputs 10-step speed-curvature trajectories, to this setting, presenting a reproducible instruction-conditioned baseline on doScenes and investigate the effects of human instruction prompts on predicted driving behavior. We integrate doScenes directives as passenger-style prompts within OpenEMMA's vision-language interface, enabling linguistic conditioning before trajectory generation. Evaluated on 849 annotated scenes using ADE, we observe that instruction conditioning substantially improves robustness by preventing extreme baseline failures, yielding a 98.7% reduction in mean ADE. When such outliers are removed, instructions still influence trajectory alignment, with well-phrased prompts improving ADE by up to 5.1%. We use this analysis to discuss what makes a "good" instruction for the OpenEMMA framework. We release the evaluation prompts and scripts to establish a reproducible baseline for instruction-aware planning. GitHub: https://github.com/Mi3-Lab/doScenes-VLM-Planning
- Abstract(参考訳): 乗客言語が軌道計画を案内する教示接地運転では、車両は動きの前に意図を理解する必要がある。
しかし、従来の命令追従プランナーのほとんどは、実世界の一般化を制限するため、シミュレーションや固定されたコマンド語彙に依存している。
doScenesは、(参照性のある)自由形式の命令と nuScenes の接地トルース動作をリンクする最初の実世界のデータセットであり、命令条件付きプランニングを可能にする。
本研究では,オープンソースMLLMベースのエンド・ツー・エンド・エンド・ドライブ・フレームワークであるOpenEMMAの10ステップの速度曲率軌跡を出力し,再現可能な命令条件付きベースラインをdoSceneに提示し,人間の指示が予測運転行動に与える影響について検討する。
我々は、doScenesディレクティブをOpenEMMAの視覚言語インタフェースに乗客スタイルのプロンプトとして統合し、軌道生成前の言語条件付けを可能にする。
ADEを用いて849のアノテートシーンを評価したところ、命令条件付けは極端なベースライン障害を防止し、平均ADEを98.7%削減することで、ロバスト性を大幅に向上することがわかった。
このような外れ値を取り除いた場合、命令は依然として軌道のアライメントに影響を与え、よく表現されたプロンプトはADEを最大5.1%改善させる。
この分析を用いて、OpenEMMAフレームワークの「良い」命令を何にするかについて議論する。
評価プロンプトとスクリプトを公開し、命令認識計画のための再現可能なベースラインを確立する。
GitHub: https://github.com/Mi3-Lab/doScenes-VLM-Planning
関連論文リスト
- LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries [30.732526921367835]
LangForceは、ベイズ分解による命令を強制する新しいフレームワークである。
我々は,新しいデータを必要としないLangForceの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2026-01-21T17:15:22Z) - Align2Act: Instruction-Tuned Models for Human-Aligned Autonomous Driving [0.0]
そこで我々は,Align2Actを提案する。Align2Actは,命令付き言語モデルを人間の行動に合わせた解釈可能なプランナーに変換する動き計画フレームワークである。
nuPlanデータセットから100万のシナリオ上でLLaMA-2-7BをLoRAで微調整することにより,Test14-randomのオープンループスコア85.17,クローズループスコア70.31,66.96を達成できる。
合成またはオープンループ設定に重点を置いた以前の作業とは異なり、実際のnuPlanクローズドループベンチマークにおいて、計画品質と人間的類似性が改善された。
論文 参考訳(メタデータ) (2025-10-12T08:50:34Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation [0.0]
doScenesは、人間と車両の命令インタラクションの研究を促進するために設計された、新しいデータセットである。
DoScenesは命令と駆動応答のギャップを埋め、コンテキスト認識と適応計画を可能にする。
論文 参考訳(メタデータ) (2024-12-08T11:16:47Z) - Instruct Large Language Models to Drive like Humans [33.219883052634614]
本研究では,大規模言語モデルを運動プランナに変換するインストラクトドライブ手法を提案する。
人間の論理に基づく運転指導データを導出する。
次に、最終計画をさらに推論するために解釈可能なInstructChainモジュールを使用します。
論文 参考訳(メタデータ) (2024-06-11T14:24:45Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。