論文の概要: Understanding Driving Risks using Large Language Models: Toward Elderly Driver Assessment
- arxiv url: http://arxiv.org/abs/2507.08367v1
- Date: Fri, 11 Jul 2025 07:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.275582
- Title: Understanding Driving Risks using Large Language Models: Toward Elderly Driver Assessment
- Title(参考訳): 大規模言語モデルを用いた運転リスクの理解 : 高齢者運転評価に向けて
- Authors: Yuki Yoshihara, Linjing Jiang, Nihan Karatas, Hitoshi Kanamori, Asuka Harada, Takahiro Tanaka,
- Abstract要約: 本研究では,交通シーンの人間的な解釈を行うマルチモーダル大規模言語モデル (LLM) の可能性について検討する。
本稿では,交通密度の評価,交差点の視認性の評価,停止標識の認識という,高齢者の運転評価に関連する3つの判断課題に焦点をあてる。
ゼロショット,少数ショット,マルチショットのプロンプト戦略を用いて,人間のアノテーションを基準としてモデルの性能を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the potential of a multimodal large language model (LLM), specifically ChatGPT-4o, to perform human-like interpretations of traffic scenes using static dashcam images. Herein, we focus on three judgment tasks relevant to elderly driver assessments: evaluating traffic density, assessing intersection visibility, and recognizing stop signs recognition. These tasks require contextual reasoning rather than simple object detection. Using zero-shot, few-shot, and multi-shot prompting strategies, we evaluated the performance of the model with human annotations serving as the reference standard. Evaluation metrics included precision, recall, and F1-score. Results indicate that prompt design considerably affects performance, with recall for intersection visibility increasing from 21.7% (zero-shot) to 57.0% (multi-shot). For traffic density, agreement increased from 53.5% to 67.6%. In stop-sign detection, the model demonstrated high precision (up to 86.3%) but a lower recall (approximately 76.7%), indicating a conservative response tendency. Output stability analysis revealed that humans and the model faced difficulties interpreting structurally ambiguous scenes. However, the model's explanatory texts corresponded with its predictions, enhancing interpretability. These findings suggest that, with well-designed prompts, LLMs hold promise as supportive tools for scene-level driving risk assessments. Future studies should explore scalability using larger datasets, diverse annotators, and next-generation model architectures for elderly driver assessments.
- Abstract(参考訳): 本研究では,マルチモーダル大規模言語モデル(LLM),特にChatGPT-4oが静的ダッシュカム画像を用いて交通シーンの人間的な解釈を行う可能性について検討した。
本稿では,交通密度の評価,交差点の視認性の評価,停止標識の認識という,高齢者の運転評価に関連する3つの判断課題に焦点をあてる。
これらのタスクは、単純なオブジェクト検出ではなく、コンテキスト推論を必要とする。
ゼロショット,少数ショット,マルチショットのプロンプト戦略を用いて,人間のアノテーションを基準としてモデルの性能を評価した。
評価基準には精度、リコール、F1スコアが含まれる。
その結果、迅速な設計は性能に大きく影響を与え、交差点の視認性は21.7%(ゼロショット)から57.0%(マルチショット)に向上した。
交通密度は53.5%から67.6%に増加した。
ストップサイン検出では、モデルは高精度(最大86.3%)でリコールが低く(約76.7%)、保守的な反応傾向を示した。
出力安定性解析により、人間とモデルは構造的にあいまいな場面を解釈する困難に直面したことが明らかとなった。
しかし、モデルの説明文はその予測と一致し、解釈可能性を高めた。
これらの結果から,LLMはシーンレベルの運転リスク評価支援ツールとして有望であることが示唆された。
将来の研究は、より大きなデータセット、多様なアノテータ、高齢者運転評価のための次世代モデルアーキテクチャを用いてスケーラビリティを探求するべきである。
関連論文リスト
- Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models [3.8924960603916894]
VLA(Vision-Language-Action)モデルには高度な自律運転があるが、既存のベンチマークにはシナリオの多様性、信頼性の高いアクションレベルのアノテーション、人間の好みに沿った評価プロトコルが欠けている。
我々は,2,610の駆動シナリオから生成された16,185のQAペアからなる,VLAモデル用に特別に設計された最初のアクション駆動ベンチマークであるDriveActionを紹介する。
論文 参考訳(メタデータ) (2025-06-06T01:30:52Z) - Predicting Mild Cognitive Impairment Using Naturalistic Driving and Trip Destination Modeling [6.66498412613475]
本研究は,ネブラスカ州における高齢ドライバーの運転習慣を分析するために,自宅,職場,医療アポイントメント,社会活動,過激なジオハッシングなどの特定の旅行先を取り入れた新しいアプローチを提案する。
C5.0、ランダムフォレスト、サポートベクターマシンなどの先進的な機械学習モデルとデータ視覚化を組み合わせた2倍の方法論を用いて、認知障害の予測におけるこれらの位置ベース変数の有効性を評価した。
論文 参考訳(メタデータ) (2025-04-12T00:52:25Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - LingoQA: Visual Question Answering for Autonomous Driving [14.620546951115328]
本稿では,自律運転における視覚的質問応答のための新しいデータセットとベンチマークであるLingoQAを紹介する。
データセットには28Kのユニークなショートビデオシナリオと419Kアノテーションが含まれている。
私たちのベンチマークでは、視覚言語モデルは、質問の59.6%に対して、人間の96.6%に対して真に反応する。
論文 参考訳(メタデータ) (2023-12-21T18:40:34Z) - GPT-4V Takes the Wheel: Promises and Challenges for Pedestrian Behavior
Prediction [12.613528624623514]
本研究は,自律運転における歩行者行動予測の文脈において,視覚言語モデル(VLM)の定量的および定性的な評価を行った最初のものである。
JAAD と WiDEVIEW を用いて GPT-4V の評価を行った。
このモデルは、ゼロショット方式で57%の精度で達成されているが、それでもなお、歩行者の横断行動を予測する最先端のドメイン固有モデル(70%)の背後にある。
論文 参考訳(メタデータ) (2023-11-24T18:02:49Z) - DRUformer: Enhancing the driving scene Important object detection with
driving relationship self-understanding [50.81809690183755]
交通事故はしばしば致命傷を負い、2023年まで5000万人以上の死者を出した。
従来の研究は、主に個々の参加者の重要性を評価し、それらを独立した存在として扱うものであった。
本稿では、重要な物体検出タスクを強化するために、運転シーン関連自己理解変換器(DRUformer)を紹介する。
論文 参考訳(メタデータ) (2023-11-11T07:26:47Z) - Evaluating the Reliability of CNN Models on Classifying Traffic and Road
Signs using LIME [1.188383832081829]
本研究は,これらのモデルの予測精度と,画像分類に適切な特徴を利用する能力を評価することに焦点を当てた。
モデル予測の強みと限界に関する洞察を得るために、この研究は局所的解釈可能なモデルに依存しない説明(LIME)フレームワークを用いている。
論文 参考訳(メタデータ) (2023-09-11T18:11:38Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。