論文の概要: A Vision-Language-Action Model with Visual Prompt for OFF-Road Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.03519v2
- Date: Mon, 12 Jan 2026 02:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.676372
- Title: A Vision-Language-Action Model with Visual Prompt for OFF-Road Autonomous Driving
- Title(参考訳): OFF-Road自律運転のための視覚プロンプトを用いた視覚言語行動モデル
- Authors: Liangdong Zhang, Yiming Nie, Haoyang Li, Fanjie Kong, Baobao Zhang, Shunxin Huang, Kai Fu, Chen Min, Liang Xiao,
- Abstract要約: オフロード地形における効率的な軌道計画は、自動運転車にとって非常に困難な課題である。
本稿では,空間認識の不十分さと不安定な推論を克服する,新しいエンドツーエンドマルチモーダルフレームワークOF-EMMAを提案する。
RELLIS-3Dオフロードデータセットの実験結果から、OF-EMMAは既存の手法よりもかなり優れていることが示された。
- 参考スコア(独自算出の注目度): 14.778856339414455
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient trajectory planning in off-road terrains presents a formidable challenge for autonomous vehicles, often necessitating complex multi-step pipelines. However, traditional approaches exhibit limited adaptability in dynamic environments. To address these limitations, this paper proposes OFF-EMMA, a novel end-to-end multimodal framework designed to overcome the deficiencies of insufficient spatial perception and unstable reasoning in visual-language-action (VLA) models for off-road autonomous driving scenarios. The framework explicitly annotates input images through the design of a visual prompt block and introduces a chain-of-thought with self-consistency (COT-SC) reasoning strategy to enhance the accuracy and robustness of trajectory planning. The visual prompt block utilizes semantic segmentation masks as visual prompts, enhancing the spatial understanding ability of pre-trained visual-language models for complex terrains. The COT- SC strategy effectively mitigates the error impact of outliers on planning performance through a multi-path reasoning mechanism. Experimental results on the RELLIS-3D off-road dataset demonstrate that OFF-EMMA significantly outperforms existing methods, reducing the average L2 error of the Qwen backbone model by 13.3% and decreasing the failure rate from 16.52% to 6.56%.
- Abstract(参考訳): オフロード地形における効率的な軌道計画は、しばしば複雑な多段階パイプラインを必要とする自動運転車にとって重大な課題となる。
しかし、従来のアプローチは動的環境において限定的な適応性を示す。
このような制約に対処するために、オフロード自動運転シナリオのための視覚言語アクション(VLA)モデルにおいて、空間認識の不足と不安定な推論を克服するために設計された、新しいエンドツーエンドマルチモーダルフレームワークであるOF-EMMAを提案する。
このフレームワークは、視覚的プロンプトブロックの設計を通じて入力画像を明示的に注釈付けし、軌道計画の正確性と堅牢性を高めるための自己整合性(COT-SC)推論戦略を導入する。
視覚的プロンプトブロックは、セマンティックセグメンテーションマスクを視覚的プロンプトとして利用し、複雑な地形に対する事前学習された視覚言語モデルの空間的理解能力を高める。
COT-SC戦略は、マルチパス推論機構を通じて、アウトレーヤが計画性能に与える影響を効果的に軽減する。
RELLIS-3Dオフロードデータセットの実験結果によると、OF-EMMAは既存の手法よりも優れており、Qwenバックボーンモデルの平均L2エラーを13.3%削減し、故障率を16.52%から6.56%に下げている。
関連論文リスト
- Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。
また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-10-30T01:25:34Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance [12.513296074529727]
本稿では,自律走行のためのリアルタイムエッジベース自律走行軌道プランナ(REACT)を提案する。
REACTは、微調整軽量ビジョンランゲージモデル(VLM)に基づくADのためのV2X統合軌道最適化フレームワークである。
DeepAccidentベンチマークで評価されたREACTは、最先端の性能、77%の衝突率の低減、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
論文 参考訳(メタデータ) (2025-08-01T20:16:04Z) - VLM-RRT: Vision Language Model Guided RRT Search for Autonomous UAV Navigation [4.022717732460524]
本稿では,視覚言語モデル(VLM)のパターン認識機能とRRT(Rapidly-Exploring Random Trees)の経路計画強度を統合するハイブリッドアプローチであるビジョン言語モデルRT(VLM-RRT)を提案する。
提案手法は, サンプリング効率と経路品質を著しく向上させるため, 実現可能な経路を含む可能性が高い領域に対してサンプリングをバイアスする。
論文 参考訳(メタデータ) (2025-05-29T09:15:44Z) - JPDS-NN: Reinforcement Learning-Based Dynamic Task Allocation for Agricultural Vehicle Routing Optimization [3.559425487157277]
エントランス依存車両ルーティング問題(Entrance Dependent Vehicle Routing Problem、EDVRP)は、都市の規模が経路結果に影響を与える車両問題(VRP)の変種である。
EDVRPを効果的に解くために,共振器分布サンプリングニューラルネットワーク(JPDS-NN)を提案する。
JPDS-NNは走行距離を48.4-65.4%削減し、燃料消費量を14.0-17.6%削減し、ベースライン法よりも2桁高速に計算する。
論文 参考訳(メタデータ) (2025-03-04T07:50:32Z) - 3DTTNet: Multimodal Fusion-Based 3D Traversable Terrain Modeling for Off-Road Environments [10.521569910467072]
オフロード環境は、自動運転車にとって重要な課題である。
本稿では,セマンティックシーンの完了によって,横断可能な領域認識を実現する。
3DTTNetと呼ばれる新しいマルチモーダル手法が提案されている。
論文 参考訳(メタデータ) (2024-12-11T08:36:36Z) - A Multi-Loss Strategy for Vehicle Trajectory Prediction: Combining Off-Road, Diversity, and Directional Consistency Losses [68.68514648185828]
軌道予測は、自動運転車における計画の安全性と効率に不可欠である。
現在のモデルでは、複雑な交通規則と潜在的な車両の動きを完全に捉えることができないことが多い。
本研究は, オフロード損失, 方向整合誤差, ダイバーシティ損失の3つの新しい損失関数を紹介する。
論文 参考訳(メタデータ) (2024-11-29T14:47:08Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。