論文の概要: V-RoAst: Visual Road Assessment. Can VLM be a Road Safety Assessor Using the iRAP Standard?
- arxiv url: http://arxiv.org/abs/2408.10872v5
- Date: Mon, 18 Aug 2025 10:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.654495
- Title: V-RoAst: Visual Road Assessment. Can VLM be a Road Safety Assessor Using the iRAP Standard?
- Title(参考訳): V-RoAst:ビジュアルロードアセスメント VLMはiRAP標準を用いた道路安全評価器か?
- Authors: Natchapon Jongwiriyanurak, Zichao Zeng, June Moh Goo, Xinglei Wang, Ilya Ilyankou, Kerkritt Sriroongvikrai, Nicola Christie, Meihui Wang, Huanfa Chen, James Haworth,
- Abstract要約: 道路安全評価は、特に低所得国・中所得国(LMICs)では、重要だが費用がかかる
従来の手法では、専門家のアノテーションとトレーニングデータが必要であるが、教師付き学習ベースのアプローチでは、地域をまたいだ一般化が困難である。
道路安全属性を分類するために視覚言語モデル (VLM) を用いたゼロショット視覚質問応答フレームワークである textitV-RoAst を導入する。
- 参考スコア(独自算出の注目度): 1.3201295431850615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Road safety assessments are critical yet costly, especially in Low- and Middle-Income Countries (LMICs), where most roads remain unrated. Traditional methods require expert annotation and training data, while supervised learning-based approaches struggle to generalise across regions. In this paper, we introduce \textit{V-RoAst}, a zero-shot Visual Question Answering (VQA) framework using Vision-Language Models (VLMs) to classify road safety attributes defined by the iRAP standard. We introduce the first open-source dataset from ThaiRAP, consisting of over 2,000 curated street-level images from Thailand annotated for this task. We evaluate Gemini-1.5-flash and GPT-4o-mini on this dataset and benchmark their performance against VGGNet and ResNet baselines. While VLMs underperform on spatial awareness, they generalise well to unseen classes and offer flexible prompt-based reasoning without retraining. Our results show that VLMs can serve as automatic road assessment tools when integrated with complementary data. This work is the first to explore VLMs for zero-shot infrastructure risk assessment and opens new directions for automatic, low-cost road safety mapping. Code and dataset: https://github.com/PongNJ/V-RoAst.
- Abstract(参考訳): 道路安全評価は、特に低所得国と中所得国(LMIC)では、ほとんどの道路が未定のままである。
従来の手法では、専門家のアノテーションとトレーニングデータが必要であるが、教師付き学習ベースのアプローチでは、地域をまたいだ一般化が困難である。
本稿では、視覚言語モデル(VLM)を用いたゼロショット視覚質問回答(VQA)フレームワークである「textit{V-RoAst}」を紹介し、iRAP規格で定義された道路安全属性を分類する。
タイの街路レベルで2000以上の画像を収集し,この課題に言及した最初のオープンソースデータセットを紹介した。
我々は、このデータセット上でGemini-1.5-flashとGPT-4o-miniを評価し、VGGNetとResNetのベースラインに対して性能をベンチマークする。
VLMは空間的認識では性能が低いが、見知らぬクラスに一般化し、再訓練なしに柔軟なプロンプトベースの推論を提供する。
この結果から,VLMは補完データと統合した場合に,自動道路評価ツールとして機能することが示唆された。
この研究は、ゼロショットインフラストラクチャリスクアセスメントのためのVLMを初めて探求し、自動化された低コストの道路安全マッピングのための新しい方向を開く。
コードとデータセット:https://github.com/PongNJ/V-RoAst
関連論文リスト
- SafeDriveRAG: Towards Safe Autonomous Driving with Knowledge Graph-based Retrieval-Augmented Generation [27.135615596331263]
視覚言語モデル(VLM)は、自律運転システムの安全性を高めるために利用することができる。
既存の研究は、交通安全クリティカルな運転シナリオにおけるこれらのモデルの評価を概ね見落としている。
本稿では,視覚的質問応答のための知識グラフに基づく検索拡張生成を用いたVLMに基づく新しいベースラインを提案する。
論文 参考訳(メタデータ) (2025-07-29T08:40:17Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - HazardNet: A Small-Scale Vision Language Model for Real-Time Traffic Safety Detection at Edge Devices [5.233512464561313]
本稿では,交通安全を高めるために設計された小型ビジョン言語モデルHazardNetを紹介する。
既存のQwen2-VL-2Bモデルを微調整してHazardNetを構築した。
本稿では,現実のシナリオでHazardNetをトレーニングするために構築された,視覚質問回答データセットHazardQAを紹介する。
論文 参考訳(メタデータ) (2025-02-27T22:21:45Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - OpenLKA: an open dataset of lane keeping assist from market autonomous vehicles [23.083443555590065]
レーンキーピング・アシスト(LKA)は近年の自動車の標準機能となっている。
LKAシステムの運用特性と安全性能は未調査のままである。
フロリダ州タンパの大手自動車メーカーからLKAシステムを広範囲にテストした。
論文 参考訳(メタデータ) (2025-01-06T04:46:10Z) - MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。
動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。
実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding [5.914751204116458]
SCEの重症度とタイプを分類するために,教師付きおよびコントラスト学習技術を統合した新しいハイブリッド手法であるScVLMを紹介する。
提案手法は,第2戦略ハイウェイ研究プログラム自然言語駆動学習データセットから8,600以上のSCEを用いて訓練し,評価する。
論文 参考訳(メタデータ) (2024-10-01T18:10:23Z) - An Explainable Machine Learning Approach to Traffic Accident Fatality Prediction [0.02730969268472861]
道路交通事故は世界中で公衆衛生上の脅威となっている。
本研究では,致命的および致命的でない道路事故を分類するための機械学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-18T12:41:56Z) - Computer vision-based model for detecting turning lane features on Florida's public roadways [2.5849315636929475]
本研究では,AIを用いた高解像度空中画像からフロリダ州の公道の道路特徴を検出する。
抽出された道路形状データは、事故や交通データと統合して、政策立案者や道路利用者に貴重な洞察を与えることができる。
論文 参考訳(メタデータ) (2024-06-13T05:28:53Z) - A Bi-Objective Approach to Last-Mile Delivery Routing Considering Driver Preferences [42.16665455951525]
MOVRP(Multi-Objective Vehicle Routing Problem)は、輸送・物流業界における複雑な最適化問題である。
本稿では,運転者の判断や操作者の嗜好を考慮した経路作成を目的としたMOVRPに対する新しいアプローチを提案する。
この目的に対処するための2つのアプローチとして,視覚的に魅力的な経路計画と,同様の経路を計画するための過去の運転行動のデータマイニングを評価した。
論文 参考訳(メタデータ) (2024-05-25T04:25:00Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z) - RSRD: A Road Surface Reconstruction Dataset and Benchmark for Safe and
Comfortable Autonomous Driving [67.09546127265034]
道路表面の再構築は、車両の走行計画と制御システムの解析と予測を促進するのに役立つ。
我々は,様々な運転条件下で,特定のプラットフォームで収集した実世界,高解像度,高精度のデータセットであるRoad Surface Reconstructionデータセットを紹介した。
約16,000対のステレオ画像、原点雲、地中深度・不均等地図を含む一般的な道路形態を網羅している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z) - Autonomous and Human-Driven Vehicles Interacting in a Roundabout: A
Quantitative and Qualitative Evaluation [34.67306374722473]
我々は,イタリア・ミラノのラウンドアバウンドにおいて,交通渋滞を最小限に抑え,汚染を最小限に抑える政策を学ぶ。
最先端のコックピットを用いて学習方針を定性的に評価し,実世界に近い環境下での性能を評価する。
以上の結果から,ヒト駆動車両はAVの動態を最適化することの利点が示唆された。
論文 参考訳(メタデータ) (2023-09-15T09:02:16Z) - Continual Cross-Dataset Adaptation in Road Surface Classification [4.470499157873342]
道路表面分類のためのディープラーニングモデルは、目に見えないデータセットでテストした場合、一般化が不十分である。
我々は,新しいデータに適応しながら,過去の知識を保持するためにデザインされた連続的な学習微調整手法を採用することを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:18:52Z) - A Counterfactual Safety Margin Perspective on the Scoring of Autonomous
Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。
本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文 参考訳(メタデータ) (2023-08-02T09:48:08Z) - Dynamic loss balancing and sequential enhancement for road-safety
assessment and traffic scene classification [0.0]
道路安全検査は、道路インフラに寄与する道路事故死者を減らすのに欠かせない手段である。
最近の研究は、道路安全属性としても知られる、慎重に選択されたリスク要因の観点から、道路安全評価を形式化している。
本稿では,2段階のニューラルネットワークによる認識を自動化することにより,退屈な人的労働への依存を減らすことを提案する。
論文 参考訳(メタデータ) (2022-11-08T11:10:07Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。
我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。
北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-01-17T14:16:12Z) - Out-of-Distribution Detection for Automotive Perception [58.34808836642603]
ニューラルネットワーク(NN)は、自律運転におけるオブジェクト分類に広く使われている。
NNは、アウト・オブ・ディストリビューション(OOD)データとして知られるトレーニングデータセットで適切に表現されていない入力データでフェールすることができる。
本稿では,OODデータを必要としない入力がOODであるか否かを判定し,推論の計算コストを増大させる方法を提案する。
論文 参考訳(メタデータ) (2020-11-03T01:46:35Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。