論文の概要: RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads
- arxiv url: http://arxiv.org/abs/2602.12877v1
- Date: Fri, 13 Feb 2026 12:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.947347
- Title: RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads
- Title(参考訳): RoadscapesQA: インドの道路における視覚的質問応答のためのマルチタスク・マルチモーダルデータセット
- Authors: Vijayasri Iyer, Maahin Rathinagiriswaran, Jyothikamalesh S,
- Abstract要約: Roadscapesは、インドで多様な運転環境で撮影された最大9000枚の画像からなるマルチタスクデータセットである。
スケーラブルなシーン理解を容易にするために,ルールベースを用いて様々なシーン特性を推測する。
道路景観は、非構造環境における視覚的景観理解の研究を進めるために整備されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding road scenes is essential for autonomous driving, as it enables systems to interpret visual surroundings to aid in effective decision-making. We present Roadscapes, a multitask multimodal dataset consisting of upto 9,000 images captured in diverse Indian driving environments, accompanied by manually verified bounding boxes. To facilitate scalable scene understanding, we employ rule-based heuristics to infer various scene attributes, which are subsequently used to generate question-answer (QA) pairs for tasks such as object grounding, reasoning, and scene understanding. The dataset includes a variety of scenes from urban and rural India, encompassing highways, service roads, village paths, and congested city streets, captured in both daytime and nighttime settings. Roadscapes has been curated to advance research on visual scene understanding in unstructured environments. In this paper, we describe the data collection and annotation process, present key dataset statistics, and provide initial baselines for image QA tasks using vision-language models.
- Abstract(参考訳): 道路シーンを理解することは自律運転にとって不可欠であり、システムは視覚環境を解釈して効果的な意思決定を支援することができる。
インドの様々な運転環境で撮影された最大9000枚の画像と,手動で検証した境界ボックスからなるマルチタスクマルチモーダルデータセットであるRoadscapesを紹介した。
スケーラブルなシーン理解を容易にするために,ルールベースのヒューリスティックを用いて様々なシーン属性を推論し,オブジェクトのグラウンド,推論,シーン理解といったタスクに対して質問応答(QA)ペアを生成する。
データセットには、ハイウェイ、サービス道路、村の道、混雑した街路を含む、都市部や農村部からの様々なシーンが含まれており、昼間と夜間の両方で撮影されている。
道路景観は、非構造環境における視覚的景観理解の研究を進めるために整備されている。
本稿では,データ収集とアノテーションのプロセス,鍵となるデータセット統計について述べるとともに,視覚言語モデルを用いた画像QAタスクの初期ベースラインを提供する。
関連論文リスト
- AVOID: The Adverse Visual Conditions Dataset with Obstacles for Driving Scene Understanding [48.97660297411286]
シミュレーション環境におけるリアルタイム障害物検出のための新しいデータセットであるAVOIDを紹介する。
AVOIDは、様々な天候と時間条件下で捕獲された各経路に沿って、予期せぬ道路障害物からなる。
各画像は、対応するセマンティックマップと深度マップ、生およびセマンティックLiDARデータ、およびウェイポイントと結合される。
論文 参考訳(メタデータ) (2025-12-29T05:34:26Z) - RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System [15.222742182076459]
RoadSceneVQAは、ロードサイドシナリオに特化した、大規模な視覚的質問応答データセットである。
データセットは、様々な天候、照明、交通条件の下で収集された34,736種類のQAペアで構成されている。
RoadSceneVQAは、明示的な認識と暗黙的な常識推論の両方を実行するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-11-23T04:40:50Z) - RSUD20K: A Dataset for Road Scene Understanding In Autonomous Driving [6.372000468173298]
RSUD20Kは、バングラデシュの道路の運転から見た20K以上の高解像度画像からなる、道路シーン理解のための新しいデータセットである。
我々の作業は以前の取り組みを大幅に改善し、詳細なアノテーションを提供し、オブジェクトの複雑さを増大させます。
論文 参考訳(メタデータ) (2024-01-14T16:10:42Z) - RSRD: A Road Surface Reconstruction Dataset and Benchmark for Safe and
Comfortable Autonomous Driving [67.09546127265034]
道路表面の再構築は、車両の走行計画と制御システムの解析と予測を促進するのに役立つ。
我々は,様々な運転条件下で,特定のプラットフォームで収集した実世界,高解像度,高精度のデータセットであるRoad Surface Reconstructionデータセットを紹介した。
約16,000対のステレオ画像、原点雲、地中深度・不均等地図を含む一般的な道路形態を網羅している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。