論文の概要: LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language
Model Programs
- arxiv url: http://arxiv.org/abs/2312.04372v1
- Date: Thu, 7 Dec 2023 15:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:33:47.615623
- Title: LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language
Model Programs
- Title(参考訳): LaMPilot: 言語モデルプログラムによる自律運転のためのオープンベンチマークデータセット
- Authors: Yunsheng Ma, Can Cui, Xu Cao, Wenqian Ye, Peiran Liu, Juanwu Lu, Amr
Abdelraouf, Rohit Gupta, Kyungtae Han, Aniket Bera, James M. Rehg, Ziran Wang
- Abstract要約: 本稿では,自動運転分野における計画の新たな枠組みであるLaMPilotを紹介する。
このアプローチは,自発的なユーザ命令の解釈と実行という課題に対処することを目的としている。
大規模言語モデル(LLM)の有効性を定量的に評価するためのLaMPilotベンチマークを導入する。
次に、LaMPilot Benchmarkのタスクに基づいて、最先端のコード生成言語モデルを広範囲に評価する。
- 参考スコア(独自算出の注目度): 33.98077199625095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present LaMPilot, a novel framework for planning in the field of
autonomous driving, rethinking the task as a code-generation process that
leverages established behavioral primitives. This approach aims to address the
challenge of interpreting and executing spontaneous user instructions such as
"overtake the car ahead," which have typically posed difficulties for existing
frameworks. We introduce the LaMPilot benchmark specifically designed to
quantitatively evaluate the efficacy of Large Language Models (LLMs) in
translating human directives into actionable driving policies. We then evaluate
a wide range of state-of-the-art code generation language models on tasks from
the LaMPilot Benchmark. The results of the experiments showed that GPT-4, with
human feedback, achieved an impressive task completion rate of 92.7% and a
minimal collision rate of 0.9%. To encourage further investigation in this
area, our code and dataset will be made available.
- Abstract(参考訳): 本稿では、自律運転の分野における新しい計画フレームワークであるLaMPilotを紹介し、そのタスクを確立された行動プリミティブを活用するコード生成プロセスとして再考する。
このアプローチは,既存のフレームワークの難しさを招きかねない,"先取り車"のような自発的なユーザ命令の解釈と実行という課題に対処することを目的としている。
本稿では,Large Language Models (LLMs) の有効性を定量的に評価するためのLaMPilotベンチマークを提案する。
次に、LaMPilot Benchmarkのタスクに基づいて、最先端のコード生成言語モデルを広範囲に評価する。
実験の結果、gpt-4は人間のフィードバックを受け、92.7%の印象的なタスク完了率を達成し、最小の衝突速度は0.9%であった。
この領域のさらなる調査を促進するため、コードとデータセットが利用可能になります。
関連論文リスト
- DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving [13.115027801151484]
自律運転におけるマルチモーダル大言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。
DriveMLLMには、880の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。
我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - Fine-tuning LLMs for Autonomous Spacecraft Control: A Case Study Using Kerbal Space Program [42.87968485876435]
本研究は、自律型宇宙船制御における微調整大型言語モデル(LLM)の利用について検討する。
これらのモデルが、言語ベースの入力と出力を用いて、宇宙船を効果的に制御する方法を実証する。
論文 参考訳(メタデータ) (2024-08-16T11:43:31Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Measuring Distributional Shifts in Text: The Advantage of Language
Model-Based Embeddings [11.393822909537796]
実運用における機械学習モデル監視の重要な部分は、入力と出力データのドリフトを測定することである。
大規模言語モデル(LLM)の最近の進歩は、意味的関係を捉える上での有効性を示している。
このような埋め込みを利用してテキストデータの分布変化を測定するクラスタリングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T20:46:48Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。