論文の概要: LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs
- arxiv url: http://arxiv.org/abs/2312.04372v2
- Date: Thu, 4 Apr 2024 05:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 19:43:34.828689
- Title: LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs
- Title(参考訳): LaMPilot: 言語モデルプログラムによる自律運転のためのオープンベンチマークデータセット
- Authors: Yunsheng Ma, Can Cui, Xu Cao, Wenqian Ye, Peiran Liu, Juanwu Lu, Amr Abdelraouf, Rohit Gupta, Kyungtae Han, Aniket Bera, James M. Rehg, Ziran Wang,
- Abstract要約: 本稿では,Large Language Modelsを自律走行システムに統合するフレームワークであるLaMPilotを紹介する。
我々はLaMPilot-Benchにおける既設LLMの性能評価実験を行った。
この結果から,多様な運転シナリオの処理や運転時のユーザ指示に従う上でのLLMの可能性が示された。
- 参考スコア(独自算出の注目度): 33.09165309585287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous driving (AD) has made significant strides in recent years. However, existing frameworks struggle to interpret and execute spontaneous user instructions, such as "overtake the car ahead." Large Language Models (LLMs) have demonstrated impressive reasoning capabilities showing potential to bridge this gap. In this paper, we present LaMPilot, a novel framework that integrates LLMs into AD systems, enabling them to follow user instructions by generating code that leverages established functional primitives. We also introduce LaMPilot-Bench, the first benchmark dataset specifically designed to quantitatively evaluate the efficacy of language model programs in AD. Adopting the LaMPilot framework, we conduct extensive experiments to assess the performance of off-the-shelf LLMs on LaMPilot-Bench. Our results demonstrate the potential of LLMs in handling diverse driving scenarios and following user instructions in driving. To facilitate further research in this area, we release our code and data at https://github.com/PurdueDigitalTwin/LaMPilot.
- Abstract(参考訳): 自律運転(AD)は近年大きな進歩を遂げている。
しかし、既存のフレームワークは「先行する車を追い越す」などの自発的なユーザー指示を解釈し実行するのに苦労している。
大きな言語モデル(LLM)は、このギャップを埋める可能性を示す印象的な推論能力を示している。
本稿では,LLMをADシステムに統合する新しいフレームワークであるLaMPilotについて述べる。
また、ADにおける言語モデルプログラムの有効性を定量的に評価するために設計された最初のベンチマークデータセットであるLaMPilot-Benchを紹介する。
本稿では,LaMPilot-Bench 上での既製の LLM の性能を評価するために,LaMPilot フレームワークを広範囲に導入した。
この結果から,多様な運転シナリオの処理や運転時のユーザ指示に従う上でのLLMの可能性が示された。
この領域のさらなる研究を促進するため、コードとデータはhttps://github.com/PurdueDigitalTwin/LaMPilot.comで公開しています。
関連論文リスト
- Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Measuring Distributional Shifts in Text: The Advantage of Language
Model-Based Embeddings [11.393822909537796]
実運用における機械学習モデル監視の重要な部分は、入力と出力データのドリフトを測定することである。
大規模言語モデル(LLM)の最近の進歩は、意味的関係を捉える上での有効性を示している。
このような埋め込みを利用してテキストデータの分布変化を測定するクラスタリングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T20:46:48Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving [6.728693243652425]
大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。
我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-03T11:05:14Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。