論文の概要: Visual Reasoning at Urban Intersections: FineTuning GPT-4o for Traffic Conflict Detection
- arxiv url: http://arxiv.org/abs/2502.20573v1
- Date: Thu, 27 Feb 2025 22:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:49.166041
- Title: Visual Reasoning at Urban Intersections: FineTuning GPT-4o for Traffic Conflict Detection
- Title(参考訳): 都市交差点における視覚的推論:交通衝突検出のためのファインチューニングGPT-4o
- Authors: Sari Masri, Huthaifa I. Ashqar, Mohammed Elhenawy,
- Abstract要約: 本研究では,MLLM(Multimodal Large Language Models)を利用した論理的・視覚的推論機能について検討する。
提案手法では,GPT-4oは衝突を検知し,運転者に対して説明や勧告を行うインテリジェントシステムとして機能する。
- 参考スコア(独自算出の注目度): 5.233512464561313
- License:
- Abstract: Traffic control in unsignalized urban intersections presents significant challenges due to the complexity, frequent conflicts, and blind spots. This study explores the capability of leveraging Multimodal Large Language Models (MLLMs), such as GPT-4o, to provide logical and visual reasoning by directly using birds-eye-view videos of four-legged intersections. In this proposed method, GPT-4o acts as intelligent system to detect conflicts and provide explanations and recommendations for the drivers. The fine-tuned model achieved an accuracy of 77.14%, while the manual evaluation of the true predicted values of the fine-tuned GPT-4o showed significant achievements of 89.9% accuracy for model-generated explanations and 92.3% for the recommended next actions. These results highlight the feasibility of using MLLMs for real-time traffic management using videos as inputs, offering scalable and actionable insights into intersections traffic management and operation. Code used in this study is available at https://github.com/sarimasri3/Traffic-Intersection-Conflict-Detection-using-images.git.
- Abstract(参考訳): 無署名の都市交差点における交通制御は、複雑さ、頻繁な紛争、盲点による重大な課題を呈している。
本研究は,GPT-4o などのマルチモーダル大規模言語モデル (MLLM) を利用して,4脚交点の鳥眼視映像を直接利用して,論理的・視覚的推論を行う能力について検討する。
提案手法では,GPT-4oは衝突を検知し,運転者に対して説明や勧告を行うインテリジェントシステムとして機能する。
微調整されたモデルは77.14%の精度を達成し、微調整されたGPT-4oの真の予測値のマニュアル評価では、モデル生成の説明では89.9%の精度、推奨された次のアクションでは92.3%の精度が得られた。
これらの結果から,ビデオによるリアルタイムトラフィック管理にMLLMを用いることで,交差点の交通管理と運用について,スケーラブルで実用的な洞察を提供することができた。
この研究で使用されたコードはhttps://github.com/sarimasri3/Traffic-Intersection-Conflict-using-images.gitで公開されている。
関連論文リスト
- Leveraging Multimodal-LLMs Assisted by Instance Segmentation for Intelligent Traffic Monitoring [6.648291808015463]
本研究では,リアルタイムQuanser Interactive Labシミュレーションプラットフォーム上でのトラフィック監視作業にLLaVAビジュアルグラウンド・マルチモーダル大言語モデル(LLM)を利用する。
複数の都市に設置されたカメラはシミュレーションからリアルタイムの画像を収集し、LLaVAモデルに入力して分析を行う。
このシステムは、車両の位置を認識する精度が84.3%、ステアリング方向が76.4%で、従来のモデルを上回っている。
論文 参考訳(メタデータ) (2025-02-16T23:03:26Z) - DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments [60.69159598130235]
Vulnerable Road Users (VRU) の高表現による認識手法の評価を目的とした新しいデータセット DAVE を提案する。
DAVEは16種類のアクターカテゴリー(動物、人間、車など)と16種類のアクションタイプ(カットイン、ジグザグ運動、Uターンなど、複雑で稀なケース)を手動でアノテートしたデータセットである。
実験の結果,既存の手法はDAVEで評価すると性能の劣化に悩まされ,将来的なビデオ認識研究のメリットを浮き彫りにしていることがわかった。
論文 参考訳(メタデータ) (2024-12-28T06:13:44Z) - Traffic Co-Simulation Framework Empowered by Infrastructure Camera Sensing and Reinforcement Learning [4.336971448707467]
マルチエージェント強化学習(MARL)は、反復シミュレーションを用いて、ネットワーク内の信号機の制御戦略の学習に特に有効である。
本研究では,高忠実度3次元モデリングと大規模交通流シミュレーションを組み合わせたCARLAとSUMOを統合したシミュレーションフレームワークを提案する。
テストベッドでの実験では、リアルタイムカメラを用いた交通状況検出におけるMARLアプローチの有効性が実証された。
論文 参考訳(メタデータ) (2024-12-05T07:01:56Z) - Large Language Models (LLMs) as Traffic Control Systems at Urban Intersections: A New Paradigm [5.233512464561313]
本研究では,Large Language Models (LLM) をトラヒックコントローラとして利用することで,トラヒック制御システムに新たなアプローチを提案する。
この研究は、論理的推論、シーン理解、意思決定能力を利用してスループットを最適化し、リアルタイムで交通状況に基づいたフィードバックを提供する。
論文 参考訳(メタデータ) (2024-11-16T19:23:52Z) - Strada-LLM: Graph LLM for traffic prediction [62.2015839597764]
交通予測における大きな課題は、非常に異なる交通条件によって引き起こされる多様なデータ分散を扱うことである。
近位交通情報を考慮した交通予測のためのグラフ対応LLMを提案する。
我々は、新しいデータ分散に直面する際に、ドメイン適応を効率的にするための軽量なアプローチを採用する。
論文 参考訳(メタデータ) (2024-10-28T09:19:29Z) - Leveraging Large Language Models (LLMs) for Traffic Management at Urban Intersections: The Case of Mixed Traffic Scenarios [5.233512464561313]
本研究では,都市交差点における交通管理を改善するため,大規模言語モデル(LLM)の能力について検討する。
我々はGPT-4o-miniを雇い、リアルタイムで交差点の紛争を分析し、予測し、検出し、解決した。
その結果, GPT-4o-miniは交通量, 混雑量, 混合速度条件の衝突を効果的に検出し, 解決することができた。
論文 参考訳(メタデータ) (2024-08-01T23:06:06Z) - GPT-4V as Traffic Assistant: An In-depth Look at Vision Language Model
on Complex Traffic Events [25.51232964290688]
交通事故、特に交通事故の認識と理解は、インテリジェントな交通システムと車両の領域における最重要課題である。
GPT-4Vのような大規模視覚言語モデル(VLM)の出現により、この問題に対処するための革新的なアプローチが導入された。
我々は,GPT-4Vが,ある種の古典的交通イベントにおいて,顕著な認知,推論,意思決定能力を示すことを観察した。
論文 参考訳(メタデータ) (2024-02-03T16:38:25Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed
Multi-Agent Reinforcement Learning [57.24340061741223]
本稿では,高密度および不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。
インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。
論文 参考訳(メタデータ) (2023-06-09T20:12:02Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。