Fugu-MT 論文翻訳(概要): VLP: Vision Language Planning for Autonomous Driving

論文の概要: VLP: Vision Language Planning for Autonomous Driving

arxiv url: http://arxiv.org/abs/2401.05577v4
Date: Sat, 23 Nov 2024 18:49:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.287985
Title: VLP: Vision Language Planning for Autonomous Driving
Title（参考訳）: VLP:自動運転のためのビジョン言語計画
Authors: Chenbin Pan, Burhaneddin Yaman, Tommaso Nesti, Abhirup Mallik, Alessandro G Allievi, Senem Velipasalar, Liu Ren,
Abstract要約: 本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
参考スコア（独自算出の注目度）: 52.640371249017335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous driving is a complex and challenging task that aims at safe motion planning through scene understanding and reasoning. While vision-only autonomous driving methods have recently achieved notable performance, through enhanced scene understanding, several key issues, including lack of reasoning, low generalization performance and long-tail scenarios, still need to be addressed. In this paper, we present VLP, a novel Vision-Language-Planning framework that exploits language models to bridge the gap between linguistic understanding and autonomous driving. VLP enhances autonomous driving systems by strengthening both the source memory foundation and the self-driving car's contextual understanding. VLP achieves state-of-the-art end-to-end planning performance on the challenging NuScenes dataset by achieving 35.9\% and 60.5\% reduction in terms of average L2 error and collision rates, respectively, compared to the previous best method. Moreover, VLP shows improved performance in challenging long-tail scenarios and strong generalization capabilities when faced with new urban environments.
Abstract（参考訳）: 自律運転は、シーン理解と推論による安全な動き計画を目的とした、複雑で困難な作業である。視覚のみの自律運転法は、シーン理解の強化を通じて、最近顕著なパフォーマンスを達成したが、推論の欠如、一般化性能の低さ、ロングテールシナリオなど、いくつかの重要な問題に対処する必要がある。本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを活用する新しいビジョン・ランゲージ・プランニングフレームワークであるVLPを提案する。 VLPは、ソースメモリ基盤と自動運転車のコンテキスト理解の両方を強化することで、自律運転システムを強化する。 VLPは,従来の最良手法と比較して,平均L2誤差と衝突率をそれぞれ35.9\%,60.5\%削減することで,挑戦的なNuScenesデータセットの最先端のプランニング性能を達成している。さらに、VLPは、新しい都市環境に直面した場合、挑戦的なロングテールシナリオと強力な一般化能力の性能向上を示す。

関連論文リスト

A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving [10.685706490545956]
本稿では,マルチセンサ融合(カメラ,LiDAR,レーダ)と大規模言語モデル(LLM)を付加したVLAアーキテクチャを統合したパーセプション・ランゲージ・アクション(PLA)フレームワークを提案する。このフレームワークは、低レベルの知覚処理と高レベルの文脈推論を統合して、コンテキスト認識、説明可能、安全に拘束された自律運転を可能にする。
論文参考訳（メタデータ） (2025-07-31T13:30:47Z)
VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文参考訳（メタデータ） (2025-07-27T16:15:21Z)
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文参考訳（メタデータ） (2025-06-16T17:58:50Z)
SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文参考訳（メタデータ） (2025-05-22T15:44:30Z)
OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文参考訳（メタデータ） (2025-04-06T03:54:21Z)
VLM-Assisted Continual learning for Visual Question Answering in Self-Driving [26.413685340816436]
本稿では,自律運転における視覚質問応答(VQA)課題を解決するための新しい手法を提案する。自動運転において、VQAはシステムが周囲について理解し、推論できるようにする上で重要な役割を担っている。本稿では,視覚言語モデルと選択的記憶再生と知識蒸留を組み合わせた新しい連続学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-02T16:27:44Z)
Distilling Multi-modal Large Language Models for Autonomous Driving [64.63127269187814]
近年のエンド・ツー・エンドの自動運転システムは,大規模言語モデル(LLM)をプランナーとして活用し,レアイベントに対する一般化性を向上させる。我々は,LLMの世界の知識を活用しつつ,LLMフリー(あるいはビジョンベース)プランナの効率を維持するエンド・ツー・エンドの自動運転システムであるDiMAを提案する。 DiMAを用いたトレーニングでは、L2軌道誤差が37%減少し、ビジョンベースプランナーの衝突速度が80%低下し、ロングテールシナリオでは44%軌道誤差が減少する。
論文参考訳（メタデータ） (2025-01-16T18:59:53Z)
Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。 GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文参考訳（メタデータ） (2025-01-15T15:20:46Z)
Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [2.0122032639916485]
我々は、セマンティックラベルの効果的な知識蒸留を、より小さなビジョンネットワークに解析する。これは、複雑なシーンのセマンティックな表現として、計画と制御のための下流の意思決定に使用することができる。
論文参考訳（メタデータ） (2025-01-12T01:31:07Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models [13.716889927164383]
自動車間協力(V2X)は、古典的な自動運転の認識限界を克服するための有望なパラダイムとして浮上している。本稿では、視覚言語モデル(VLM)に基づく新しいエンドツーエンド(E2E)協調自動運転フレームワークであるV2X-VLMを紹介する。 V2X-VLMは、車両やインフラからの多視点カメラビューとテキストベースのシーン記述を統合し、運転環境のより包括的な理解を可能にする。
論文参考訳（メタデータ） (2024-08-17T16:42:13Z)
SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文参考訳（メタデータ） (2024-07-31T02:35:33Z)
Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving [43.156632952193966]
従来のエンド・ツー・エンドの運転モデルは、トレーニング・ディストリビューション内での珍しいまたは目に見えない入力のために、長い尾のイベントに悩まされる。オブジェクトレベルの知識に世界をトークン化する新しい多モード大規模言語モデル(MM-LLM)であるTOKENを提案する。 ToKENは、従来のエンドツーエンドの駆動モデルを活用することにより、データの不足と非効率なトークン化を効果的に軽減する。
論文参考訳（メタデータ） (2024-07-01T04:34:50Z)
OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models [31.552397390480525]
視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。 DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
論文参考訳（メタデータ） (2024-02-19T17:04:04Z)
LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文参考訳（メタデータ） (2023-12-30T02:53:45Z)
GPT-Driver: Learning to Drive with GPT [47.14350537515685]
我々は,OpenAI GPT-3.5モデルを自律走行車のための信頼性の高い運動プランナに変換する,シンプルで効果的なアプローチを提案する。我々は、Large Language Models(LLMs)固有の強力な推論能力と一般化の可能性に乗じる。我々は,大規模な nuScenes データセットに対する我々のアプローチを評価し,GPT ベースの運動プランナの有効性,一般化能力,解釈可能性について検証した。
論文参考訳（メタデータ） (2023-10-02T17:59:57Z)
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。 DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文参考訳（メタデータ） (2023-10-02T17:59:52Z)
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone [67.13773226242242]
ビデオ言語事前学習は、様々なビジョンや言語タスクに一般化することができる。ビデオ言語事前学習フレームワークは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学ぶ。新たな世代のエゴセントリックなビデオ言語事前訓練は、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込む。
論文参考訳（メタデータ） (2023-07-11T17:50:15Z)
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。 PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。 PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文参考訳（メタデータ） (2022-05-23T10:17:53Z)
Connecting Language and Vision for Natural Language-Based Vehicle Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文参考訳（メタデータ） (2021-05-31T11:42:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。