論文の概要: AgentDrive: An Open Benchmark Dataset for Agentic AI Reasoning with LLM-Generated Scenarios in Autonomous Systems
- arxiv url: http://arxiv.org/abs/2601.16964v1
- Date: Fri, 23 Jan 2026 18:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.801404
- Title: AgentDrive: An Open Benchmark Dataset for Agentic AI Reasoning with LLM-Generated Scenarios in Autonomous Systems
- Title(参考訳): AgentDrive: 自律システムにおけるLLM生成シナリオによるエージェントAI推論のためのオープンベンチマークデータセット
- Authors: Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah,
- Abstract要約: 本稿では30万の運転シナリオを含むオープンベンチマークデータセットであるAgentDriveを紹介する。
AgentDriveは、シナリオタイプ、ドライバの動作、環境、道路レイアウト、目的、難易度、トラフィック密度の7つの軸にまたがる要因化されたシナリオ空間を形式化する。
シミュレーションに基づく評価を補完するために,5つの推論次元にまたがる10万件の多重選択ベンチマークであるAgentDrive-MCQを紹介する。
- 参考スコア(独自算出の注目度): 3.099103925863002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has sparked growing interest in their integration into autonomous systems for reasoning-driven perception, planning, and decision-making. However, evaluating and training such agentic AI models remains challenging due to the lack of large-scale, structured, and safety-critical benchmarks. This paper introduces AgentDrive, an open benchmark dataset containing 300,000 LLM-generated driving scenarios designed for training, fine-tuning, and evaluating autonomous agents under diverse conditions. AgentDrive formalizes a factorized scenario space across seven orthogonal axes: scenario type, driver behavior, environment, road layout, objective, difficulty, and traffic density. An LLM-driven prompt-to-JSON pipeline generates semantically rich, simulation-ready specifications that are validated against physical and schema constraints. Each scenario undergoes simulation rollouts, surrogate safety metric computation, and rule-based outcome labeling. To complement simulation-based evaluation, we introduce AgentDrive-MCQ, a 100,000-question multiple-choice benchmark spanning five reasoning dimensions: physics, policy, hybrid, scenario, and comparative reasoning. We conduct a large-scale evaluation of fifty leading LLMs on AgentDrive-MCQ. Results show that while proprietary frontier models perform best in contextual and policy reasoning, advanced open models are rapidly closing the gap in structured and physics-grounded reasoning. We release the AgentDrive dataset, AgentDrive-MCQ benchmark, evaluation code, and related materials at https://github.com/maferrag/AgentDrive
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、推論駆動の認識、計画、意思決定のための自律システムへの統合への関心が高まっている。
しかし、大規模な、構造化され、安全クリティカルなベンチマークが欠如しているため、エージェントAIモデルの評価とトレーニングは依然として難しい。
本稿では,多様な条件下での自律エージェントのトレーニング,微調整,評価のために設計された30,000 LLM生成駆動シナリオを含むオープンベンチマークデータセットであるAgentDriveを紹介する。
AgentDriveは、シナリオタイプ、ドライバの動作、環境、道路レイアウト、目的、難易度、トラフィック密度という、7つの直交軸にまたがる因子化されたシナリオ空間を形式化する。
LLM駆動のプロンプト・ツー・JSONパイプラインは、物理的およびスキーマ制約に対して検証されたセマンティックにリッチでシミュレーション可能な仕様を生成する。
各シナリオは、シミュレーションのロールアウト、安全メトリックの計算のサロゲート、ルールベースの結果ラベリングを実行する。
シミュレーションに基づく評価を補完するため,AgentDrive-MCQは物理,ポリシー,ハイブリッド,シナリオ,比較推論の5つの推論次元にまたがる10万の多重選択ベンチマークである。
我々は,AgentDrive-MCQ上で50個のLLMを大規模に評価する。
その結果、プロプライエタリフロンティアモデルは文脈的およびポリシー的推論において最善を尽くす一方で、高度なオープンモデルは構造的および物理的推論におけるギャップを急速に埋めていることがわかった。
AgentDriveデータセット、AgentDrive-MCQベンチマーク、評価コード、関連資料をhttps://github.com/maferrag/AgentDriveでリリースしました。
関連論文リスト
- InfGen: Scenario Generation as Next Token Group Prediction [49.54222089551598]
InfGenは、エージェント状態とトラジェクトリを自動回帰的に出力するシナリオ生成フレームワークである。
実験により、InfGenは現実的で多様性があり、適応的な交通行動を生み出すことが示された。
論文 参考訳(メタデータ) (2025-06-29T16:18:32Z) - Integrating Counterfactual Simulations with Language Models for Explaining Multi-Agent Behaviour [35.19786322586909]
AXIS(Interrogative Simulation)を用いたエージェントeXplanationを提案する。
AXISはマルチエージェントポリシーのための人間中心のアクション説明を生成する。
自動運転車のAXISを10シナリオで5 LLMで評価した。
論文 参考訳(メタデータ) (2025-05-23T12:19:18Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - On Simulation-Guided LLM-based Code Generation for Safe Autonomous Driving Software [0.577182115743694]
オートマチック・ドライビング・システム(Automated Driving System, ADS)は、車両の環境の解釈に責任を負う安全クリティカルなソフトウェアシステムである。
ADSの開発には厳格なプロセスが必要で、車両に配備する前にコードを検証し、検証し、評価し、検証する。
本研究では,自動コード生成と評価のためのプロトタイプを開発し,評価した。
論文 参考訳(メタデータ) (2025-04-02T21:35:11Z) - AutoDrive-QA: A Multiple-Choice Benchmark for Vision-Language Evaluation in Urban Autonomous Driving [0.7734726150561086]
オープンエンド運転QAを構造化多重選択質問に体系的に変換する最初のベンチマークであるAutoDrive-QAを紹介する。
微調整LLaVA-1.5-7Bはタスク間で約6ポイントの精度向上を実現し、GPT-4Vは最大69.8%の精度で最強のゼロショット性能を実現し、Qwen2-VLモデルも競争力を発揮した。
論文 参考訳(メタデータ) (2025-03-20T01:32:00Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。