論文の概要: Road Rage Reasoning with Vision-language Models (VLMs): Task Definition and Evaluation Dataset
- arxiv url: http://arxiv.org/abs/2503.11342v1
- Date: Fri, 14 Mar 2025 12:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:08.414953
- Title: Road Rage Reasoning with Vision-language Models (VLMs): Task Definition and Evaluation Dataset
- Title(参考訳): 視覚言語モデル(VLMs):タスク定義と評価データセット
- Authors: Yibing Weng, Yu Gu, Fuji Ren,
- Abstract要約: 交通渋滞やアグレッシブな運転などの運転関連の刺激によって引き起こされる道路の怒りは、道路の安全に重大な脅威をもたらす。
道路規制に関するこれまでの研究は、主に応答抑制に焦点を合わせており、予防能力は欠如している。
VLM(Vision-Language Models)の出現により、ドライバーの怒りがエスカレートする前に、視覚的にイベントをトリガーし、ダイアログベースの慰めを行うことが可能になった。
- 参考スコア(独自算出の注目度): 4.357836359387452
- License:
- Abstract: Road rage, triggered by driving-related stimuli such as traffic congestion and aggressive driving, poses a significant threat to road safety. Previous research on road rage regulation has primarily focused on response suppression, lacking proactive prevention capabilities. With the advent of Vision-Language Models (VLMs), it has become possible to reason about trigger events visually and then engage in dialog-based comforting before drivers' anger escalates. To this end, we propose the road rage reasoning task, along with a finely annotated test dataset and evaluation metrics, to assess the capabilities of current mainstream VLMs in scene understanding, event recognition, and road rage reasoning. The results indicate that current VLMs exhibit significant shortcomings in scene understanding within the visual modality, as well as in comprehending the spatial relationships between objects in the textual modality. Improving VLMs' performance in these areas will greatly benefit downstream tasks like antecedent-focused road rage regulation.
- Abstract(参考訳): 交通渋滞やアグレッシブな運転などの運転関連の刺激によって引き起こされる道路の怒りは、道路の安全に重大な脅威をもたらす。
道路規制に関するこれまでの研究は、主に応答抑制に焦点を合わせており、予防能力は欠如している。
VLM(Vision-Language Models)の出現により、ドライバーの怒りがエスカレートする前に、視覚的にイベントをトリガーし、ダイアログベースの慰めを行うことが可能になった。
そこで本研究では,シーン理解,イベント認識,道路レージ推論において,現在主流となっているVLMの能力を評価するために,詳細な注釈付きテストデータセットと評価指標とともに,道路レージ推論タスクを提案する。
その結果、現在のVLMは、視覚的モダリティ内のシーン理解において、また、テキスト的モダリティにおけるオブジェクト間の空間的関係の理解において、重大な欠点を示すことが明らかとなった。
これらの分野でのVLMの性能向上は、先進的な道路規制のような下流業務に大きな恩恵をもたらすだろう。
関連論文リスト
- Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments [60.69159598130235]
Vulnerable Road Users (VRU) の高表現による認識手法の評価を目的とした新しいデータセット DAVE を提案する。
DAVEは16種類のアクターカテゴリー(動物、人間、車など)と16種類のアクションタイプ(カットイン、ジグザグ運動、Uターンなど、複雑で稀なケース)を手動でアノテートしたデータセットである。
実験の結果,既存の手法はDAVEで評価すると性能の劣化に悩まされ,将来的なビデオ認識研究のメリットを浮き彫りにしていることがわかった。
論文 参考訳(メタデータ) (2024-12-28T06:13:44Z) - A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised
Traffic Accident Detection in Driving Videos [22.553356096143734]
本稿では,運転ビデオにおける教師なし交通事故検出のためのメモリ拡張型マルチタスク協調フレームワーク(MAMTCF)を提案する。
映像フレームの外観変化と物体の動きを同時にモデル化することにより,エゴ関連事故と非エゴ関連事故の両方をより正確に検出することができる。
論文 参考訳(メタデータ) (2023-07-27T01:45:13Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Salient Sign Detection In Safe Autonomous Driving: AI Which Reasons Over
Full Visual Context [2.799896314754614]
運転シーンにおける様々な交通標識は、運転者の判断に不平等な影響を及ぼす。
そこで我々は,有能な標識の性能を重視した交通信号検出モデルを構築した。
本研究では,Salience-Sensitive Focal Lossで訓練したモデルが,無訓練で訓練したモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-01-14T01:47:09Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - DRIVE: Deep Reinforced Accident Anticipation with Visual Explanation [36.350348194248014]
交通事故予測は、ダッシュカムビデオから将来の事故の発生を正確にかつ迅速に予測することを目的としている。
既存のアプローチは通常、将来の事故が起こる前に、空間的および時間的文脈の手がかりを捉えることに重点を置いている。
本稿では, DRIVE という視覚表現を用いた深部強化型事故予測手法を提案する。
論文 参考訳(メタデータ) (2021-07-21T16:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。