Fugu-MT 論文翻訳(概要): NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario

論文の概要: NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario

arxiv url: http://arxiv.org/abs/2305.14836v1
Date: Wed, 24 May 2023 07:40:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 18:43:15.037451
Title: NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario
Title（参考訳）: NuScenes-QA: 自律運転シナリオのためのマルチモーダルビジュアル質問回答ベンチマーク
Authors: Tianwen Qian, Jingjing Chen, Linhai Zhuo, Yang Jiao, Yu-Gang Jiang
Abstract要約: NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
参考スコア（独自算出の注目度）: 66.2905034756004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a novel visual question answering (VQA) task in the context of autonomous driving, aiming to answer natural language questions based on street-view clues. Compared to traditional VQA tasks, VQA in autonomous driving scenario presents more challenges. Firstly, the raw visual data are multi-modal, including images and point clouds captured by camera and LiDAR, respectively. Secondly, the data are multi-frame due to the continuous, real-time acquisition. Thirdly, the outdoor scenes exhibit both moving foreground and static background. Existing VQA benchmarks fail to adequately address these complexities. To bridge this gap, we propose NuScenes-QA, the first benchmark for VQA in the autonomous driving scenario, encompassing 34K visual scenes and 460K question-answer pairs. Specifically, we leverage existing 3D detection annotations to generate scene graphs and design question templates manually. Subsequently, the question-answer pairs are generated programmatically based on these templates. Comprehensive statistics prove that our NuScenes-QA is a balanced large-scale benchmark with diverse question formats. Built upon it, we develop a series of baselines that employ advanced 3D detection and VQA techniques. Our extensive experiments highlight the challenges posed by this new task. Codes and dataset are available at https://github.com/qiantianwen/NuScenes-QA.
Abstract（参考訳）: 本稿では,道路ビューの手がかりに基づく自然言語質問への回答を目的とした,自律運転における視覚的質問応答(VQA)タスクを紹介する。従来のVQAタスクと比較して、自律運転シナリオにおけるVQAは多くの課題を提示している。まず、生の視覚データはマルチモーダルで、画像と点雲はそれぞれカメラとLiDARによってキャプチャされる。第二に、データは連続的にリアルタイムに取得されるため、マルチフレームである。第3に、屋外のシーンは前景と静的背景の両方を動かしている。既存のVQAベンチマークは、これらの複雑さに適切に対処できない。このギャップを埋めるため,自動運転シナリオにおけるVQAの最初のベンチマークであるNuScenes-QAを提案し,34Kの視覚シーンと460Kの質問応答ペアを含む。具体的には,既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。その後、これらのテンプレートに基づいて質問応答ペアをプログラム的に生成する。包括的統計によると、我々のNuScenes-QAは多様な質問形式を持つ大規模ベンチマークである。そこで我々は,高度な3D検出とVQA技術を用いた一連のベースラインを開発した。当社の広範な実験では、この新しいタスクが抱える課題が浮かび上がっています。コードとデータセットはhttps://github.com/qiantianwen/NuScenes-QA.comで公開されている。

関連論文リスト

Spoken question answering for visual queries [14.834200714168546]
本研究の目的は,音声と画像の両方を通じてユーザインタラクションを可能にするシステムを構築することである。結果として得られるマルチモーダルモデルは、テキスト、ビジュアル、および音声入力を持ち、画像上の音声質問に答えることができる。
論文参考訳（メタデータ） (2025-05-29T10:06:48Z)
NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations [0.6827423171182154]
VQA(Visual Question Answering)は、自動運転において最も重要なタスクの1つである。本稿では,QAをマークアップ内に囲む新しいデータセットアノテーション手法を提案する。このデータセットは視覚言語モデル、特に自律運転タスクの開発を促進する。
論文参考訳（メタデータ） (2023-12-11T12:58:54Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。 ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文参考訳（メタデータ） (2023-05-04T03:04:59Z)
Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。 1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文参考訳（メタデータ） (2023-03-09T06:58:29Z)
HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images [18.075338835513993]
我々は,1024×1024ピクセルと1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。航空画像に対するVQAモデルの理解能力を評価するため,HRVQAにおける関連手法の評価を行った。本手法は,従来の最先端手法と比較して優れた性能を実現する。
論文参考訳（メタデータ） (2023-01-23T14:36:38Z)
Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。 FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文参考訳（メタデータ） (2022-10-13T15:01:15Z)
From Easy to Hard: Learning Language-guided Curriculum for Visual Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。 RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。 RSVQAタスクでは、各画像の難易度が明らかに異なる。言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文参考訳（メタデータ） (2022-05-06T11:37:00Z)
Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。 A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文参考訳（メタデータ） (2022-03-26T13:03:42Z)
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文参考訳（メタデータ） (2021-05-18T04:56:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。