論文の概要: General-purpose LLMs as Models of Human Driver Behavior: The Case of Simplified Merging
- arxiv url: http://arxiv.org/abs/2604.09609v1
- Date: Wed, 11 Mar 2026 16:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.551066
- Title: General-purpose LLMs as Models of Human Driver Behavior: The Case of Simplified Merging
- Title(参考訳): ヒトの運転行動モデルとしての汎用LDM--簡易な統合を例として
- Authors: Samir H. A. Mohammad, Wouter Mooi, Arkady Zgonnikov,
- Abstract要約: 汎用大規模言語モデル(LLM)は、現在の行動モデルに代わる有望な代替手段を提供する。
簡易な1次元統合シナリオにおいて、2つの汎用LLMをスタンドアロンの閉ループドライバエージェントとして比較する。
ダイナミックな速度キューに対する人間の反応を常に捉えておらず、安全性能はモデル間で急激にばらつきます。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human behavior models are essential as behavior references and for simulating human agents in virtual safety assessment of automated vehicles (AVs), yet current models face a trade-off between interpretability and flexibility. General-purpose large language models (LLMs) offer a promising alternative: a single model potentially deployable without parameter fitting across diverse scenarios. However, what LLMs can and cannot capture about human driving behavior remains poorly understood. We address this gap by embedding two general-purpose LLMs (OpenAI o3 and Google Gemini 2.5 Pro) as standalone, closed-loop driver agents in a simplified one-dimensional merging scenario and comparing their behavior against human data using quantitative and qualitative analyses. Both models reproduce human-like intermittent operational control and tactical dependencies on spatial cues. However, neither consistently captures the human response to dynamic velocity cues, and safety performance diverges sharply between models. A systematic prompt ablation study reveals that prompt components act as model-specific inductive biases that do not transfer across LLMs. These findings suggest that general-purpose LLMs could potentially serve as standalone, ready-to-use human behavior models in AV evaluation pipelines, but future research is needed to better understand their failure modes and ensure their validity as models of human driving behavior.
- Abstract(参考訳): 人間の行動モデルは、行動参照として不可欠であり、自動車両(AV)の仮想安全性評価において、人間のエージェントをシミュレートするために必要である。
汎用の大規模言語モデル(LLM)は、有望な代替手段を提供する。
しかし、人間の運転行動についてLLMができることや捉えられないことは、いまだに理解されていない。
本稿では,2つの汎用LLM(OpenAI o3とGoogle Gemini 2.5 Pro)を,簡易な1次元マージシナリオでスタンドアロンでクローズドループドライバエージェントとして組み込んだ上で,定量的かつ定性的な分析を用いて,その動作を人間データと比較することによって,このギャップに対処する。
どちらのモデルも、人間のような断続的な操作制御と空間的手がかりへの戦術的依存を再現する。
しかし、動的速度キューに対する人間の反応を常に捉えておらず、安全性能はモデル間で急激にばらつきます。
系統的なプロンプトアブレーション研究により、プロンプト成分がモデル特異的誘導バイアスとして作用し、LSMを経由しないことが明らかとなった。
これらの結果から, 汎用LLMは, AV評価パイプラインにおいて, スタンドアロンで使用可能な人間の行動モデルとして機能する可能性が示唆された。
関連論文リスト
- Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [81.41397370235102]
我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。
現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。
この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
論文 参考訳(メタデータ) (2026-04-09T15:26:21Z) - InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文 参考訳(メタデータ) (2026-01-05T18:54:29Z) - LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - Markov Regime-Switching Intelligent Driver Model for Interpretable Car-Following Behavior [19.229274803939983]
我々は、運転動作を異なるIDMパラメータセットで制御できるレギュラースイッチングフレームワークを導入する。
IDM力学を用いたファクショナル隠れマルコフモデルを用いてフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2025-06-17T17:55:42Z) - AI-Driven Day-to-Day Route Choice [15.934133434324755]
LLMTravelerは過去の経験から学び、検索したデータと性格特性のバランスをとることで意思決定を行うエージェントである。
本稿では,LLMTravelerが日常の混雑ゲーム2段階を通じて人間的な意思決定を再現する能力について,体系的に評価する。
この能力は、旅行者の新しいポリシーに対する反応やネットワークの変更をシミュレートするなど、交通政策立案に有用な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-04T14:13:38Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Contrastive Value Learning: Implicit Models for Simple Offline RL [40.95632543012637]
本研究では,環境力学の暗黙的多段階モデルを学習するコントラスト価値学習(CVL)を提案する。
CVLは報酬関数を使わずに学習できるが、それでも各アクションの値を直接見積もることができる。
CVLは, 複雑な連続制御ベンチマークにおいて, 従来のオフラインRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。