論文の概要: NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous
Driving Datasets using Markup Annotations
- arxiv url: http://arxiv.org/abs/2312.06352v1
- Date: Mon, 11 Dec 2023 12:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:43:29.367759
- Title: NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous
Driving Datasets using Markup Annotations
- Title(参考訳): NuScenes-MQA:マークアップアノテーションを用いた自律走行データセットのキャプションとQAの統合評価
- Authors: Yuichi Inoue, Yuki Yada, Kotaro Tanahashi, Yu Yamaguchi
- Abstract要約: VQA(Visual Question Answering)は、自動運転において最も重要なタスクの1つである。
本稿では,QAをマークアップ内に囲む新しいデータセットアノテーション手法を提案する。
このデータセットは視覚言語モデル、特に自律運転タスクの開発を促進する。
- 参考スコア(独自算出の注目度): 0.6827423171182154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is one of the most important tasks in
autonomous driving, which requires accurate recognition and complex situation
evaluations. However, datasets annotated in a QA format, which guarantees
precise language generation and scene recognition from driving scenes, have not
been established yet. In this work, we introduce Markup-QA, a novel dataset
annotation technique in which QAs are enclosed within markups. This approach
facilitates the simultaneous evaluation of a model's capabilities in sentence
generation and VQA. Moreover, using this annotation methodology, we designed
the NuScenes-MQA dataset. This dataset empowers the development of vision
language models, especially for autonomous driving tasks, by focusing on both
descriptive capabilities and precise QA. The dataset is available at
https://github.com/turingmotors/NuScenes-MQA.
- Abstract(参考訳): 視覚質問応答(VQA)は自律運転において最も重要なタスクの一つであり、正確な認識と複雑な状況評価を必要とする。
しかし,運転シーンからの正確な言語生成とシーン認識を保証するQA形式で注釈付けされたデータセットはまだ確立されていない。
本稿では,マークアップ内にQAを囲む新しいデータセットアノテーション手法であるMarkup-QAを紹介する。
このアプローチは、文生成とVQAにおけるモデルの能力の同時評価を容易にする。
さらに、このアノテーション手法を用いて、NuScenes-MQAデータセットを設計した。
このデータセットは、説明能力と正確なQAの両方に焦点を当てることで、視覚言語モデル、特に自律運転タスクの開発を促進する。
データセットはhttps://github.com/turingmotors/NuScenes-MQA.comで公開されている。
関連論文リスト
- Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment [69.07445098168344]
我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
論文 参考訳(メタデータ) (2024-11-26T09:03:16Z) - Suvach -- Generated Hindi QA benchmark [0.0]
本稿では,Hindi EQAモデルの評価に特化して設計された新しいベンチマークを提案する。
この手法は,大規模言語モデル(LLM)を利用して,抽出条件下で高品質なデータセットを生成する。
論文 参考訳(メタデータ) (2024-04-30T04:19:17Z) - AQUALLM: Audio Question Answering Data Generation Using Large Language
Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。
AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。
我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文 参考訳(メタデータ) (2023-12-28T20:01:27Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。