論文の概要: Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model
- arxiv url: http://arxiv.org/abs/2603.00694v1
- Date: Sat, 28 Feb 2026 15:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.325006
- Title: Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model
- Title(参考訳): ワイルドドライブ:ロバストなマルチモーダルルーティングと効率的な大言語モデルによるオフロードシーンのキャプションとパスプランニング
- Authors: Zihang Wang, Xu Li, Benwu Wang, Wenkai Zhu, Xieyuanli Chen, Dong Kong, Kailin Lyu, Yinan Du, Yiming Peng, Haoyang Che,
- Abstract要約: オフロードシーンキャプションと経路計画のための効率的なフレームワークWild-Driveを提案する。
また,多様なセンサ劣化条件下でのオフロードシーンのキャプションと経路計画に関するOR-C2Pベンチマークを構築した。
- 参考スコア(独自算出の注目度): 12.904352021300667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainability and transparent decision-making are essential for the safe deployment of autonomous driving systems. Scene captioning summarizes environmental conditions and risk factors in natural language, improving transparency, safety, and human--robot interaction. However, most existing approaches target structured urban scenarios; in off-road environments, they are vulnerable to single-modality degradations caused by rain, fog, snow, and darkness, and they lack a unified framework that jointly models structured scene captioning and path planning. To bridge this gap, we propose Wild-Drive, an efficient framework for off-road scene captioning and path planning. Wild-Drive adopts modern multimodal encoders and introduces a task-conditioned modality-routing bridge, MoRo-Former, to adaptively aggregate reliable information under degraded sensing. It then integrates an efficient large language model (LLM), together with a planning token and a gate recurrent unit (GRU) decoder, to generate structured captions and predict future trajectories. We also build the OR-C2P Benchmark, which covers structured off-road scene captioning and path planning under diverse sensor corruption conditions. Experiments on OR-C2P dataset and a self-collected dataset show that Wild-Drive outperforms prior LLM-based methods and remains more stable under degraded sensing. The code and benchmark will be publicly available at https://github.com/wangzihanggg/Wild-Drive.
- Abstract(参考訳): 自律運転システムの安全な配置には、説明可能性と透明性のある意思決定が不可欠である。
シーンキャプションでは、自然言語の環境条件とリスク要因を要約し、透明性、安全性、人間-ロボットの相互作用を改善している。
オフロード環境では、雨、霧、雪、暗闇によって引き起こされる単一モダリティの劣化に対して脆弱であり、構造化されたシーンキャプションとパスプランニングを共同でモデル化する統一的な枠組みが欠如している。
このギャップを埋めるため,オフロードシーンキャプションと経路計画のための効率的なフレームワークであるWild-Driveを提案する。
Wild-Driveは、モダンなマルチモーダルエンコーダを採用し、タスク条件のモダリティルーティングブリッジであるMoRo-Formerを導入し、信頼性のある情報を劣化検知下で適応的に集約する。
次に、効率的な大規模言語モデル(LLM)と計画トークンとゲートリカレントユニット(GRU)デコーダを統合し、構造化キャプションを生成し、将来の軌跡を予測する。
また,多様なセンサ劣化条件下でのオフロードシーンのキャプションと経路計画に関するOR-C2Pベンチマークを構築した。
OR-C2Pデータセットと自己収集データセットの実験は、Wild-Driveが従来のLCMベースのメソッドよりも優れ、劣化検知下ではより安定していることを示している。
コードとベンチマークはhttps://github.com/wangzihanggg/Wild-Drive.comで公開される。
関連論文リスト
- AnchorDrive: LLM Scenario Rollout with Anchor-Guided Diffusion Regeneration for Safety-Critical Scenario Generation [5.21417478446202]
AnchorDriveは、2段階の安全クリティカルシナリオ生成フレームワークである。
制御可能で現実的な安全クリティカルなシナリオを生成する。
批判性、リアリズム、制御性において、全体的なパフォーマンスに優れています。
論文 参考訳(メタデータ) (2026-03-03T02:58:14Z) - LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers [15.4994260281059]
低レベルの空間計画から高レベルの意図を遠ざける生成フレームワークであるLAD-Driveを紹介する。
LAD-Driveは確率的メタアクション分布を推測するためにアクションデコーダを使用し、通常1ホットの符号化で失われるニュアンスドインテントを保存する明示的な信念状態を確立する。
LangAutoベンチマークの大規模な評価は、LAD-Driveが最先端の結果を達成し、ドライビングスコアの競争ベースラインを最大59%上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-02T16:21:42Z) - Generative Scenario Rollouts for End-to-End Autonomous Driving [58.99809446189301]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転システムの高効率な計画モデルとして登場している。
本稿では,VLAモデルのためのプラグイン・アンド・プレイフレームワークであるGenerative Scenario Rollouts (GeRo)を提案する。
論文 参考訳(メタデータ) (2026-01-16T17:59:28Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction [9.833728353188132]
我々はWildRoadをリリースした。WildRoadは対話型アノテーションツールで効率的に構築されたグローバルオフロードロードネットワークデータセットである。
我々は,パス中心のフレームワークであるMaGRoadを紹介した。
MaGRoadは、挑戦的なWildRoadベンチマークで最先端のパフォーマンスを達成し、都市データセットに最適化します。
論文 参考訳(メタデータ) (2025-12-11T08:29:27Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding [5.830619388189558]
本稿では,総合的なハイウェイシーン理解のためのマルチエージェントフレームワークを提案する。
大規模汎用視覚言語モデル(VLM)は、タスク固有のチェーン・オブ・シークレットを生成するために、ドメイン知識と共にコンテキスト化される。
このフレームワークは、気象分類、舗装湿性評価、交通渋滞検出を同時に扱う。
論文 参考訳(メタデータ) (2025-08-24T03:55:24Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - Why Braking? Scenario Extraction and Reasoning Utilizing LLM [13.88343221678386]
シナリオ理解と推論にLarge Language Model(LLM)を利用する新しいフレームワークを提案する。
提案手法は,低レベル数値信号と自然言語記述とのギャップを埋め,LLMによる運転シナリオの解釈と分類を可能にする。
論文 参考訳(メタデータ) (2025-07-17T08:33:56Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。