論文の概要: SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.16805v1
- Date: Thu, 22 May 2025 15:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.411836
- Title: SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving
- Title(参考訳): SOLVE: 自律運転のための言語ビジョンとエンドツーエンドネットワークのシナジー
- Authors: Xuesong Chen, Linjiang Huang, Tao Ma, Rongyao Fang, Shaoshuai Shi, Hongsheng Li,
- Abstract要約: SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
- 参考スコア(独自算出の注目度): 51.47621083057114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Vision-Language Models (VLMs) into autonomous driving systems has shown promise in addressing key challenges such as learning complexity, interpretability, and common-sense reasoning. However, existing approaches often struggle with efficient integration and realtime decision-making due to computational demands. In this paper, we introduce SOLVE, an innovative framework that synergizes VLMs with end-to-end (E2E) models to enhance autonomous vehicle planning. Our approach emphasizes knowledge sharing at the feature level through a shared visual encoder, enabling comprehensive interaction between VLM and E2E components. We propose a Trajectory Chain-of-Thought (T-CoT) paradigm, which progressively refines trajectory predictions, reducing uncertainty and improving accuracy. By employing a temporal decoupling strategy, SOLVE achieves efficient cooperation by aligning high-quality VLM outputs with E2E real-time performance. Evaluated on the nuScenes dataset, our method demonstrates significant improvements in trajectory prediction accuracy, paving the way for more robust and reliable autonomous driving systems.
- Abstract(参考訳): VLM(Vision-Language Models)の自律走行システムへの統合は、複雑性の学習、解釈可能性、常識推論といった重要な課題に対処する上で有望であることを示している。
しかしながら、既存のアプローチは、計算要求による効率的な統合とリアルタイムな意思決定に苦慮することが多い。
本稿では,VLMをエンド・ツー・エンド(E2E)モデルと相乗し,自律走行車計画を改善する革新的なフレームワークであるSOLVEを紹介する。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
本稿では,軌道予測を段階的に洗練し,不確実性を低減し,精度を向上するトラジェクティブ・チェーン・オブ・ソート(T-CoT)パラダイムを提案する。
時間デカップリング戦略を用いることで、高品質なVLM出力とE2Eリアルタイム性能を整合させることにより、効率的な協調を実現する。
nuScenesデータセットを評価した結果,軌道予測精度が大幅に向上し,より堅牢で信頼性の高い自動運転システムが実現された。
関連論文リスト
- Open-Source LLM-Driven Federated Transformer for Predictive IoV Management [1.8024397171920885]
Federated Prompt-d Traffic Transformer (FPoTT)は、オープンソースのLarge Language Modelsを利用して予測IoV管理を行う新しいフレームワークである。
FPoTTは動的プロンプト最適化機構を導入し、テキストプロンプトを反復的に洗練して軌道予測を強化する。
このアーキテクチャは、リアルタイム推論のための軽量エッジモデルと、グローバルインテリジェンスを維持するためのクラウドベースのLLMを組み合わせた、二重層フェデレーション学習パラダイムを採用している。
論文 参考訳(メタデータ) (2025-05-01T16:54:21Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion [5.6565850326929485]
本稿では、視覚言語モデルを用いて、注意喚起手段を提供することでトレーニングを強化する新しいフレームワークを提案する。
本手法は,テキスト表現をBird's-Eye-View (BEV) 機能に統合し,意味的管理を行う。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-25T10:02:12Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - Unified End-to-End V2X Cooperative Autonomous Driving [21.631099800753795]
UniE2EV2Xは、V2Xに統合されたエンドツーエンドの自動運転システムで、主要な駆動モジュールを統合ネットワーク内で統合する。
このフレームワークは変形可能な注意ベースのデータ融合戦略を採用し、車とインフラの協調を効果的に促進する。
We implement the UniE2EV2X framework on the challenge DeepAccident, a simulation dataset designed for V2X collaborative driving。
論文 参考訳(メタデータ) (2024-05-07T03:01:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。