Fugu-MT 論文翻訳(概要): Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

論文の概要: Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

arxiv url: http://arxiv.org/abs/2310.01957v2
Date: Fri, 13 Oct 2023 21:59:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 22:46:04.624967
Title: Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
Title（参考訳）: LLMによる運転: 説明可能な自律運転のためのオブジェクトレベルベクトルモダリティの融合
Authors: Long Chen, Oleg Sinavski, Jan H\"unermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, Jamie Shotton
Abstract要約: 大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 6.728693243652425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown promise in the autonomous driving sector, particularly in generalization and interpretability. We introduce a unique object-level multimodal LLM architecture that merges vectorized numeric modalities with a pre-trained LLM to improve context understanding in driving situations. We also present a new dataset of 160k QA pairs derived from 10k driving scenarios, paired with high quality control commands collected with RL agent and question answer pairs generated by teacher LLM (GPT-3.5). A distinct pretraining strategy is devised to align numeric vector modalities with static LLM representations using vector captioning language data. We also introduce an evaluation metric for Driving QA and demonstrate our LLM-driver's proficiency in interpreting driving scenarios, answering questions, and decision-making. Our findings highlight the potential of LLM-based driving action generation in comparison to traditional behavioral cloning. We make our benchmark, datasets, and model available for further exploration.
Abstract（参考訳）: 大規模言語モデル(llm)は自動運転分野、特に一般化と解釈性において有望である。本稿では,ベクトル化数値モダリティと事前学習されたllmを融合した,ユニークなオブジェクトレベルのマルチモーダルllmアーキテクチャを提案する。また,教師LLM(GPT-3.5)が生成する質問応答ペアとRLエージェントで収集した高品質な制御コマンドとを組み合わせ,10k運転シナリオから導出した160kQAペアのデータセットを提案する。ベクターキャプタリング言語データを用いた静的LLM表現と数値ベクトルモダリティを一致させるための事前学習戦略が考案された。また、運転QAの評価基準を導入し、運転シナリオの解釈、質問への回答、意思決定におけるLCMドライバの熟練度を示す。本研究は, 従来の行動クローンと比較して, LLMによる運転行動生成の可能性を強調した。ベンチマークやデータセット、モデルを使って、さらなる調査を行っています。

関連論文リスト

Do LLM Modules Generalize? A Study on Motion Generation for Autonomous Driving [15.903491909277745]
本稿では,5つのLLMモジュールの総合評価を行う。適切な適応を行うと、これらのモジュールは自律走行運動生成の性能を大幅に向上させることができることを示す。さらに、どの技術が効果的に移行できるかを特定し、他人の失敗の潜在的な原因を分析し、自律運転シナリオに必要な具体的な適応について議論する。
論文参考訳（メタデータ） (2025-09-02T19:02:49Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。 3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文参考訳（メタデータ） (2025-05-18T08:55:46Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving [13.115027801151484]
自律運転におけるマルチモーダル大言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。 DriveMLLMには、880の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。
論文参考訳（メタデータ） (2024-11-20T08:14:01Z)
Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文参考訳（メタデータ） (2024-10-08T02:25:38Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
AD-H: Autonomous Driving with Hierarchical Agents [64.49185157446297]
我々は,ハイレベル命令と低レベル制御信号を中間言語駆動の命令に接続することを提案する。我々は、AD-Hという階層型マルチエージェント駆動システムを用いて、このアイデアを実装した。
論文参考訳（メタデータ） (2024-06-05T17:25:46Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。 LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文参考訳（メタデータ） (2024-05-08T09:28:04Z)
DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文参考訳（メタデータ） (2023-12-21T18:59:12Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文参考訳（メタデータ） (2023-10-04T17:59:49Z)
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。 DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文参考訳（メタデータ） (2023-10-02T17:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。