論文の概要: V-RoAst: Visual Road Assessment. Can VLM be a Road Safety Assessor Using the iRAP Standard?
- arxiv url: http://arxiv.org/abs/2408.10872v3
- Date: Mon, 26 May 2025 13:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.42974
- Title: V-RoAst: Visual Road Assessment. Can VLM be a Road Safety Assessor Using the iRAP Standard?
- Title(参考訳): V-RoAst:ビジュアルロードアセスメント VLMはiRAP標準を用いた道路安全評価器か?
- Authors: Natchapon Jongwiriyanurak, Zichao Zeng, June Moh Goo, James Haworth, Xinglei Wang, Kerkritt Sriroongvikrai, Nicola Christie, Ilya Ilyankou, Meihui Wang, Huanfa Chen,
- Abstract要約: 道路の安全評価は伝統的に、労働集約的で時間を要する人為的なデータに依存している。
本研究では、ゼロショット機能を持つ視覚言語モデル(VLM)がこれらの制限を克服できるかどうかを考察する。
迅速なエンジニアリングの最適化とMapillaryからのクラウドソースイメージの利用により、V-RoAstはスケーラブルで費用対効果が高く、自動化されたソリューションを提供する。
- 参考スコア(独自算出の注目度): 1.3201295431850615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Road traffic crashes result in millions of deaths annually and significant economic burdens, particularly on Low- and Middle-Income Countries (LMICs). Road safety assessments traditionally rely on human-labelled data, which is labour-intensive and time-consuming. While Convolutional Neural Networks (CNNs) have advanced automated road safety assessments, they typically demand large labelled datasets and often require fine-tuning for each new geographic context. This study explores whether Vision Language Models (VLMs) with zero-shot capability can overcome these limitations to serve as effective road safety assessors using the International Road Assessment Programme (iRAP) standard. Our approach, V-RoAst (Visual question answering for Road Assessment), leverages advanced VLMs, such as Gemini-1.5-flash and GPT-4o-mini, to analyse road safety attributes without requiring any labelled training data. By optimising prompt engineering and utilising crowdsourced imagery from Mapillary, V-RoAst provides a scalable, cost-effective, and automated solution for global road safety assessments. Preliminary results show that while VLMs achieve lower performance than CNN-based models, they are capable of Visual Question Answering (VQA) and show potential in predicting star ratings from crowdsourced imagery. However, their performance is poor when key visual features are absent in the imagery, emphasising the need for human labelling to address these gaps. Advancements in VLMs, alongside in-context learning such as chain-of-thought and few-shot learning, and parameter-efficient fine-tuning, present opportunities for improvement, making VLMs promising tools for road assessment tasks. Designed for resource-constrained stakeholders, this framework holds the potential to save lives and reduce economic burdens worldwide. Code and dataset are available at: https://github.com/PongNJ/V-RoAst.
- Abstract(参考訳): 道路交通事故は毎年何百万人もの死者を出し、特に低所得国と中所得国(LMICs)で経済的な重荷を負っている。
道路の安全評価は伝統的に、労働集約的で時間を要する人為的なデータに依存している。
畳み込みニューラルネットワーク(CNN)は、高度な道路安全評価を行っているが、通常は大きなラベル付きデータセットを必要とし、新しい地理的コンテキストごとに微調整を必要とすることが多い。
本研究では, ゼロショット能力を有する視覚言語モデル(VLM)がこれらの制限を克服し, 国際道路評価プログラム(iRAP)標準を用いた効果的な道路安全評価器として機能するかどうかを考察する。
我々のアプローチであるV-RoAst (Visual Question answering for Road Assessment)は、Gemini-1.5-flashやGPT-4o-miniのような高度なVLMを利用して、ラベル付きトレーニングデータを必要としない道路安全特性の分析を行う。
迅速なエンジニアリングの最適化とMapillaryからのクラウドソースイメージの利用により、V-RoAstは、グローバルな道路安全評価のためのスケーラブルで費用対効果が高く、自動化されたソリューションを提供する。
予備的な結果は、VLMがCNNベースのモデルよりも低い性能を達成する一方で、視覚質問応答(VQA)が可能であり、クラウドソースされた画像から星のレーティングを予測する可能性を示唆している。
しかし、画像に重要な視覚的特徴が欠如している場合、その性能は貧弱であり、これらのギャップに対処するための人間のラベル付けの必要性を強調している。
VLMの進歩は、チェーン・オブ・ソート(英語版)や少数ショット学習(英語版)のようなコンテキスト内学習、パラメータ効率の良い微調整などとともに改善の機会を与え、VLMは道路評価タスクに有望なツールを提供する。
資源に制約のある利害関係者のために設計されたこの枠組みは、命を救い、世界中の経済的負担を減らす可能性を秘めている。
コードとデータセットは、https://github.com/PongNJ/V-RoAst.comで入手できる。
関連論文リスト
- HazardNet: A Small-Scale Vision Language Model for Real-Time Traffic Safety Detection at Edge Devices [5.233512464561313]
本稿では,交通安全を高めるために設計された小型ビジョン言語モデルHazardNetを紹介する。
既存のQwen2-VL-2Bモデルを微調整してHazardNetを構築した。
本稿では,現実のシナリオでHazardNetをトレーニングするために構築された,視覚質問回答データセットHazardQAを紹介する。
論文 参考訳(メタデータ) (2025-02-27T22:21:45Z) - MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。
動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。
実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - An Explainable Machine Learning Approach to Traffic Accident Fatality Prediction [0.02730969268472861]
道路交通事故は世界中で公衆衛生上の脅威となっている。
本研究では,致命的および致命的でない道路事故を分類するための機械学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-18T12:41:56Z) - Computer vision-based model for detecting turning lane features on Florida's public roadways [2.5849315636929475]
本研究では,AIを用いた高解像度空中画像からフロリダ州の公道の道路特徴を検出する。
抽出された道路形状データは、事故や交通データと統合して、政策立案者や道路利用者に貴重な洞察を与えることができる。
論文 参考訳(メタデータ) (2024-06-13T05:28:53Z) - A Bi-Objective Approach to Last-Mile Delivery Routing Considering Driver Preferences [42.16665455951525]
MOVRP(Multi-Objective Vehicle Routing Problem)は、輸送・物流業界における複雑な最適化問題である。
本稿では,運転者の判断や操作者の嗜好を考慮した経路作成を目的としたMOVRPに対する新しいアプローチを提案する。
この目的に対処するための2つのアプローチとして,視覚的に魅力的な経路計画と,同様の経路を計画するための過去の運転行動のデータマイニングを評価した。
論文 参考訳(メタデータ) (2024-05-25T04:25:00Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - RSRD: A Road Surface Reconstruction Dataset and Benchmark for Safe and
Comfortable Autonomous Driving [67.09546127265034]
道路表面の再構築は、車両の走行計画と制御システムの解析と予測を促進するのに役立つ。
我々は,様々な運転条件下で,特定のプラットフォームで収集した実世界,高解像度,高精度のデータセットであるRoad Surface Reconstructionデータセットを紹介した。
約16,000対のステレオ画像、原点雲、地中深度・不均等地図を含む一般的な道路形態を網羅している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z) - Autonomous and Human-Driven Vehicles Interacting in a Roundabout: A
Quantitative and Qualitative Evaluation [34.67306374722473]
我々は,イタリア・ミラノのラウンドアバウンドにおいて,交通渋滞を最小限に抑え,汚染を最小限に抑える政策を学ぶ。
最先端のコックピットを用いて学習方針を定性的に評価し,実世界に近い環境下での性能を評価する。
以上の結果から,ヒト駆動車両はAVの動態を最適化することの利点が示唆された。
論文 参考訳(メタデータ) (2023-09-15T09:02:16Z) - Continual Cross-Dataset Adaptation in Road Surface Classification [4.470499157873342]
道路表面分類のためのディープラーニングモデルは、目に見えないデータセットでテストした場合、一般化が不十分である。
我々は,新しいデータに適応しながら,過去の知識を保持するためにデザインされた連続的な学習微調整手法を採用することを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:18:52Z) - A Counterfactual Safety Margin Perspective on the Scoring of Autonomous
Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。
本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文 参考訳(メタデータ) (2023-08-02T09:48:08Z) - End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。
我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。
北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-01-17T14:16:12Z) - Out-of-Distribution Detection for Automotive Perception [58.34808836642603]
ニューラルネットワーク(NN)は、自律運転におけるオブジェクト分類に広く使われている。
NNは、アウト・オブ・ディストリビューション(OOD)データとして知られるトレーニングデータセットで適切に表現されていない入力データでフェールすることができる。
本稿では,OODデータを必要としない入力がOODであるか否かを判定し,推論の計算コストを増大させる方法を提案する。
論文 参考訳(メタデータ) (2020-11-03T01:46:35Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。