論文の概要: Visual and Cognitive Demands of a Large Language Model-Powered In-vehicle Conversational Agent
- arxiv url: http://arxiv.org/abs/2601.15034v1
- Date: Wed, 21 Jan 2026 14:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.396481
- Title: Visual and Cognitive Demands of a Large Language Model-Powered In-vehicle Conversational Agent
- Title(参考訳): 大規模言語モデルを用いた車内対話エージェントの視覚的・認知的要求
- Authors: Chris Monk, Allegra Ayala, Christine S. P. Yu, Gregory M. Fitch, Dara Gruber,
- Abstract要約: 本研究は,道路走行中における多言語モデル(LLM)会話エージェント(Gemini Live)の視覚的・認知的要求について検討した。
その結果、ジェミニ・ライブの相互作用は、視覚的ターンバイターンガイダンスとOSPANの類似した認知的負荷のレベルを共有していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver distraction remains a leading contributor to motor vehicle crashes, necessitating rigorous evaluation of new in-vehicle technologies. This study assessed the visual and cognitive demands associated with an advanced Large Language Model (LLM) conversational agent (Gemini Live) during on-road driving, comparing it against handsfree phone calls, visual turn-by-turn guidance (low load baseline), and the Operation Span (OSPAN) task (high load anchor). Thirty-two licensed drivers completed five secondary tasks while visual and cognitive demands were measured using the Detection Response Task (DRT) for cognitive load, eye-tracking for visual attention, and subjective workload ratings. Results indicated that Gemini Live interactions (both single-turn and multi-turn) and hands-free phone calls shared similar levels of cognitive load, between that of visual turn-by-turn guidance and OSPAN. Exploratory analysis showed that cognitive load remained stable across extended multi-turn conversations. All tasks maintained mean glance durations well below the well-established 2-second safety threshold, confirming low visual demand. Furthermore, drivers consistently dedicated longer glances to the roadway between brief off-road glances toward the device during task completion, particularly during voice-based interactions, rendering longer total-eyes-off-road time findings less consequential. Subjective ratings mirrored objective data, with participants reporting low effort, demands, and perceived distraction for Gemini Live. These findings demonstrate that advanced LLM conversational agents, when implemented via voice interfaces, impose cognitive and visual demands comparable to established, low-risk hands-free benchmarks, supporting their safe deployment in the driving environment.
- Abstract(参考訳): ドライバーの注意散らしは、新しい車載技術の厳格な評価を必要とする、自動車事故の主導的な貢献者であり続けている。
本研究は,道路走行中における多言語モデル(LLM)会話エージェント(Gemini Live)の視覚的・認知的要求を,ハンズフリー通話,視覚的ターンバイターン誘導(低負荷ベースライン),オペレーティングスパン(高負荷アンカー)タスク(高負荷アンカー)と比較した。
認知負荷に対する検出応答タスク(DRT)、視覚的注意のための視線追跡、主観的作業負荷評価を用いて、視覚的および認知的要求を計測した。
その結果、Gemini Liveのインタラクション(シングルターンとマルチターンの両方)とハンズフリーの電話は、視覚的ターンバイターンガイダンスとOSPANとで、同様のレベルの認知負荷を共有できた。
探索分析の結果,多ターン会話の認知負荷は安定していた。
すべてのタスクは、十分に確立された2秒の安全閾値をはるかに下回っており、視覚的要求の低さを確認している。
さらに、ドライバーは、タスク完了中、特に音声によるインタラクションの間、短いオフロードの視線の間の道路に常に長い視線を捧げる。
主観評価は客観的データを反映し、参加者は低努力、要求、ジェミニ・ライブに対する注意散らしを報告した。
これらの結果から,高度なLLM対話エージェントが音声インタフェースを介して実装されると,従来の低リスクのハンズフリーベンチマークに匹敵する認知的・視覚的要求を課し,運転環境への安全な展開を支援することが示唆された。
関連論文リスト
- ChatGPT on the Road: Leveraging Large Language Model-Powered In-vehicle Conversational Agents for Safer and More Enjoyable Driving Experience [3.2505793054002963]
本研究では,ChatGPTをベースとした車内エージェントが連続多ターン対話を実現する可能性について検討した。
動作に基づく運転シミュレータを用いた実験には40名のドライバーが参加した。
結果,ChatGPTをベースとしたエージェント条件により,複数の指標に対してより安定した運転性能が得られた。
論文 参考訳(メタデータ) (2025-08-11T15:40:44Z) - Driver Assistant: Persuading Drivers to Adjust Secondary Tasks Using Large Language Models [21.606100899122847]
本研究では,道路条件に対する適切な注意維持を支援するために,Large Language Model (LLM) を用いた。
本ツールでは,レベル3システムで発生する道路条件をトリガーとして利用し,視覚経路と聴覚経路の両方を通じてドライバーの行動を積極的に操縦する。
論文 参考訳(メタデータ) (2025-08-07T10:26:28Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Predicting Multitasking in Manual and Automated Driving with Optimal Supervisory Control [2.0794380287086214]
本稿では、運転中に人間のマルチタスクをシミュレートする計算認知モデルを提案する。
最適監督制御理論に基づいて、マルチタスクが運転要求、対話的タスク、自動化レベルの変化にどのように適応するかを予測する。
論文 参考訳(メタデータ) (2025-03-23T08:56:53Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Driver Profiling and Bayesian Workload Estimation Using Naturalistic
Peripheral Detection Study Data [40.43737902900321]
性能データを駆動する作業負荷推定の問題に対処する。
心的負荷を誘発する主要な環境要因をビデオ解析により同定する。
教師付き学習フレームワークは、彼らが経験した平均的なワークロードに基づいて、プロファイルドライバに導入される。
ベイズフィルタリング手法は、ドライバーの即時作業負荷である(ほぼ)リアルタイムに逐次推定するために提案される。
論文 参考訳(メタデータ) (2023-03-26T13:15:44Z) - On the Forces of Driver Distraction: Explainable Predictions for the
Visual Demand of In-Vehicle Touchscreen Interactions [5.375634674639956]
車載タッチスクリーンHuman-Machine Interfaces(HMI)は、可能な限り気を散らさなければならない。
本稿では,車内タッチスクリーン相互作用の視覚的要求を予測する機械学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T13:50:26Z) - Studying Person-Specific Pointing and Gaze Behavior for Multimodal
Referencing of Outside Objects from a Moving Vehicle [58.720142291102135]
物体選択と参照のための自動車応用において、手指しと目視が広く研究されている。
既存の車外参照手法は静的な状況に重点を置いているが、移動車両の状況は極めて動的であり、安全性に制約がある。
本研究では,外部オブジェクトを参照するタスクにおいて,各モダリティの具体的特徴とそれら間の相互作用について検討する。
論文 参考訳(メタデータ) (2020-09-23T14:56:19Z) - V2VNet: Vehicle-to-Vehicle Communication for Joint Perception and
Prediction [74.42961817119283]
車両間通信(V2V)を用いて、自動運転車の知覚と運動予測性能を向上させる。
複数の車両から受信した情報をインテリジェントに集約することで、異なる視点から同じシーンを観察することができる。
論文 参考訳(メタデータ) (2020-08-17T17:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。