論文の概要: PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science
- arxiv url: http://arxiv.org/abs/2508.17117v1
- Date: Sat, 23 Aug 2025 19:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.34863
- Title: PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science
- Title(参考訳): PlantVillageVQA: 植物科学におけるビジョンランゲージモデルベンチマークのための視覚的質問応答データセット
- Authors: Syed Nazmus Sakib, Nafiul Haque, Mohammad Zabed Hossain, Shifat E. Arman,
- Abstract要約: PlantVillageVQAデータセットは、55,448枚以上の画像に基づいて、高品質なQA(QA)ペア193,609枚で構成されている。
データセットは、科学的正確性と関連性に関して、ドメインの専門家によって反復的にレビューされた。
本研究の目的は,植物病の診断精度を高めるために,公開され,標準化され,専門家が検証したデータベースを提供することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: PlantVillageVQA is a large-scale visual question answering (VQA) dataset derived from the widely used PlantVillage image corpus. It was designed to advance the development and evaluation of vision-language models for agricultural decision-making and analysis. The PlantVillageVQA dataset comprises 193,609 high-quality question-answer (QA) pairs grounded over 55,448 images spanning 14 crop species and 38 disease conditions. Questions are organised into 3 levels of cognitive complexity and 9 distinct categories. Each question category was phrased manually following expert guidance and generated via an automated two-stage pipeline: (1) template-based QA synthesis from image metadata and (2) multi-stage linguistic re-engineering. The dataset was iteratively reviewed by domain experts for scientific accuracy and relevancy. The final dataset was evaluated using three state-of-the-art models for quality assessment. Our objective remains to provide a publicly available, standardised and expert-verified database to enhance diagnostic accuracy for plant disease identifications and advance scientific research in the agricultural domain. Our dataset will be open-sourced at https://huggingface.co/datasets/SyedNazmusSakib/PlantVillageVQA.
- Abstract(参考訳): PlantVillageVQAは、広く使用されているPlanVillageイメージコーパスから派生した大規模な視覚的質問応答(VQA)データセットである。
農業意思決定・分析のための視覚言語モデルの開発と評価を促進するために設計された。
PlantVillageVQAデータセットは、高品質なQA(QA)ペア193,609枚からなる。
質問は3段階の認知複雑性と9つの異なるカテゴリに分けられる。
1) 画像メタデータからのテンプレートベースのQA合成, (2) 多段階言語再設計。
データセットは、科学的正確性と関連性に関して、ドメインの専門家によって反復的にレビューされた。
最終データセットは、品質評価のための3つの最先端モデルを用いて評価された。
本研究の目的は, 植物病の診断精度を高め, 農業分野での科学的研究を進めるために, 公開され, 標準化され, 専門家が検証したデータベースを提供することである。
私たちのデータセットはhttps://huggingface.co/datasets/SyedNazmusSakib/PlantVillageVQAでオープンソース化されます。
関連論文リスト
- A Comprehensive Survey on Visual Question Answering Datasets and Algorithms [1.941892373913038]
我々は、VQAデータセットとモデルの現状を慎重に分析し、それらを異なるカテゴリにきれいに分割し、各カテゴリの方法論と特徴を要約する。
VQAモデルの6つの主要なパラダイムを探求する。融合、注意、あるモードからの情報を用いて、別のモードからの情報をフィルタリングする技法、外部知識ベース、構成または推論、グラフモデルである。
論文 参考訳(メタデータ) (2024-11-17T18:52:06Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Encyclopedic VQA: Visual questions about detailed properties of
fine-grained categories [41.2406955639537]
Encyclopedic-VQAは大規模な視覚的質問応答データセットである。
それぞれが(最大5つの画像にマッチする221万のユニークな質問+回答のペアを含んでいる。
私たちのデータセットには、Wikipediaから派生した制御された知識ベースがあります。
論文 参考訳(メタデータ) (2023-06-15T16:03:01Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。