論文の概要: RoadSceneBench: A Lightweight Benchmark for Mid-Level Road Scene Understanding
- arxiv url: http://arxiv.org/abs/2511.22466v1
- Date: Thu, 27 Nov 2025 13:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.591358
- Title: RoadSceneBench: A Lightweight Benchmark for Mid-Level Road Scene Understanding
- Title(参考訳): RoadSceneBench: 中間レベル道路シーン理解のための軽量ベンチマーク
- Authors: Xiyan Liu, Han Wang, Yuhu Wang, Junjie Cai, Zhe Cao, Jianzhong Yang, Zhen Lu,
- Abstract要約: RoadSceneBenchは複雑な道路環境における視覚的推論の評価と進歩を目的としたベンチマークである。
大規模な認識とは異なり、RoadSceneBenchはリレーショナル理解と構造的一貫性を強調している。
本手法は様々な道路構成における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 8.824330786267184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding mid-level road semantics, which capture the structural and contextual cues that link low-level perception to high-level planning, is essential for reliable autonomous driving and digital map construction. However, existing benchmarks primarily target perception tasks such as detection or segmentation, overlooking the reasoning capabilities required to infer road topology and dynamic scene structure. To address this gap, we present RoadSceneBench, a lightweight yet information-rich benchmark designed to evaluate and advance visual reasoning in complex road environments. Unlike large-scale perception datasets, RoadSceneBench emphasizes relational understanding and structural consistency, encouraging models to capture the underlying logic of real-world road scenes. Furthermore, to enhance reasoning reliability, we propose Hierarchical Relational Reward Propagation with Temporal Consistency (HRRP-T), a training framework for Vision-Language Models (VLMs) in which reward signals adaptively promote spatial coherence and semantic alignment throughout the reasoning process. This paradigm enables models to move beyond static recognition toward geometry-aware and temporally consistent reasoning. Extensive experiments demonstrate that our method achieves state-of-the-art performance across diverse road configurations. RoadSceneBench thus provides a compact yet powerful foundation for studying mid-level road semantics and fostering structure-aware autonomous perception. Our dataset is available at https://github.com/XiyanLiu/RoadSceneBench.
- Abstract(参考訳): 低レベルの認識と高レベルの計画とを結びつける構造的・文脈的手がかりを捉える中レベルの道路意味論を理解することは、信頼性の高い自動運転とデジタルマップ構築に不可欠である。
しかし、既存のベンチマークは主に、道路トポロジや動的シーン構造を推測するために必要な推論能力を見越して、検出やセグメンテーションなどの認識タスクをターゲットにしている。
このギャップに対処するために、複雑な道路環境における視覚的推論の評価と進歩を目的とした軽量で情報に富んだベンチマークであるRoadSceneBenchを紹介した。
大規模な知覚データセットとは異なり、RoadSceneBenchはリレーショナル理解と構造的一貫性を強調し、モデルが現実の道路シーンの基盤となるロジックをキャプチャすることを奨励している。
さらに、推論信頼性を高めるために、報酬信号が推論過程全体を通して空間コヒーレンスと意味的アライメントを適応的に促進する視覚言語モデル(VLM)のトレーニングフレームワークであるHRRP-T(Hierarchical Relational Reward Propagation with Temporal Consistency)を提案する。
このパラダイムにより、モデルは静的認識を超えて、幾何学的認識と時間的一貫性のある推論に移行することができる。
大規模実験により,道路構成の多様さにまたがる最先端性能が得られた。
したがって、RoadSceneBenchは、中程度の道路意味論を研究し、構造を意識した自律認識を促進するための、コンパクトで強力な基盤を提供する。
データセットはhttps://github.com/XiyanLiu/RoadSceneBench.comから入手可能です。
関連論文リスト
- RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System [15.222742182076459]
RoadSceneVQAは、ロードサイドシナリオに特化した、大規模な視覚的質問応答データセットである。
データセットは、様々な天候、照明、交通条件の下で収集された34,736種類のQAペアで構成されている。
RoadSceneVQAは、明示的な認識と暗黙的な常識推論の両方を実行するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-11-23T04:40:50Z) - Coherent Online Road Topology Estimation and Reasoning with Standard-Definition Maps [26.036008442130587]
ほとんどの自動運転車はHD(High-Definition)マップの可用性に依存している。
現在の研究は、搭載センサーからHDマップ要素を直接予測することで、この制約に対処することを目的としている。
本稿では,道路境界だけでなく,レーンセグメントとその対応するトポロジを予測するためのコヒーレントなアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-02T06:26:17Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。
大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - A Deeply Supervised Semantic Segmentation Method Based on GAN [9.441379867578332]
提案モデルは,GAN(Generative Adversarial Network)フレームワークを従来のセマンティックセグメンテーションモデルに統合する。
本手法の有効性は,道路ひび割れデータセットの性能向上によって実証された。
論文 参考訳(メタデータ) (2023-10-06T08:22:24Z) - SEPT: Towards Efficient Scene Representation Learning for Motion
Prediction [19.111948522155004]
本稿では,自己教師付き学習を活用し,複雑な交通シーンのための強力なモデルを開発するためのモデリングフレームワークSEPTを提案する。
実験により、SEPTはアーキテクチャ設計や機能エンジニアリングを伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-09-26T21:56:03Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Decentralized Vehicle Coordination: The Berkeley DeepDrive Drone Dataset and Consensus-Based Models [76.32775745488073]
本研究では,非構造環境における動作計画の研究を目的とした,新しいデータセットとモデリングフレームワークを提案する。
コンセンサスに基づくモデリング手法により、データセットで観測された優先順位の出現を効果的に説明できることを実証する。
論文 参考訳(メタデータ) (2022-09-19T05:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。