Fugu-MT 論文翻訳(概要): PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science

論文の概要: PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science

arxiv url: http://arxiv.org/abs/2508.17117v2
Date: Thu, 28 Aug 2025 21:35:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-01 11:39:19.098237
Title: PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science
Title（参考訳）: PlantVillageVQA: 植物科学におけるビジョンランゲージモデルベンチマークのための視覚的質問応答データセット
Authors: Syed Nazmus Sakib, Nafiul Haque, Mohammad Zabed Hossain, Shifat E. Arman,
Abstract要約: PlantVillageVQAデータセットは、55,448枚以上の画像に基づいて、高品質なQA(QA)ペア193,609枚で構成されている。データセットは、科学的正確性と関連性に関して、ドメインの専門家によって反復的にレビューされた。本研究の目的は,植物病の診断精度を高めるために,公開され,標準化され,専門家が検証したデータベースを提供することである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: PlantVillageVQA is a large-scale visual question answering (VQA) dataset derived from the widely used PlantVillage image corpus. It was designed to advance the development and evaluation of vision-language models for agricultural decision-making and analysis. The PlantVillageVQA dataset comprises 193,609 high-quality question-answer (QA) pairs grounded over 55,448 images spanning 14 crop species and 38 disease conditions. Questions are organised into 3 levels of cognitive complexity and 9 distinct categories. Each question category was phrased manually following expert guidance and generated via an automated two-stage pipeline: (1) template-based QA synthesis from image metadata and (2) multi-stage linguistic re-engineering. The dataset was iteratively reviewed by domain experts for scientific accuracy and relevancy. The final dataset was evaluated using three state-of-the-art models for quality assessment. Our objective remains to provide a publicly available, standardised and expert-verified database to enhance diagnostic accuracy for plant disease identifications and advance scientific research in the agricultural domain. Our dataset will be open-sourced at https://huggingface.co/datasets/SyedNazmusSakib/PlantVillageVQA.
Abstract（参考訳）: PlantVillageVQAは、広く使用されているPlanVillageイメージコーパスから派生した大規模な視覚的質問応答(VQA)データセットである。農業意思決定・分析のための視覚言語モデルの開発と評価を促進するために設計された。 PlantVillageVQAデータセットは、高品質なQA(QA)ペア193,609枚からなる。質問は3段階の認知複雑性と9つの異なるカテゴリに分けられる。 1) 画像メタデータからのテンプレートベースのQA合成, (2) 多段階言語再設計。データセットは、科学的正確性と関連性に関して、ドメインの専門家によって反復的にレビューされた。最終データセットは、品質評価のための3つの最先端モデルを用いて評価された。本研究の目的は, 植物病の診断精度を高め, 農業分野での科学的研究を進めるために, 公開され, 標準化され, 専門家が検証したデータベースを提供することである。私たちのデータセットはhttps://huggingface.co/datasets/SyedNazmusSakib/PlantVillageVQAでオープンソース化されます。

関連論文リスト

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering [53.662676566188175]
重要なボトルネックは、パブリックで大規模で高品質なビジュアル質問回答(SVQA)データセットの欠如にある。本稿では、まず、図形関連テクストコンテキストとQAペアを生成する検証中心のGenerate-then-Verifyフレームワークを提案する。このフレームワークをインスタンス化し、20の科学的ドメインと12のフィギュアタイプからなる20,351のQAペアのデータセットであるVeriSciQAをキュレートします。
論文参考訳（メタデータ） (2025-11-25T04:14:52Z)
GQVis: A Dataset of Genomics Data Questions and Visualizations for Generative AI [8.6230004297124]
本稿では,ゲノムデータに関する抽象的,低レベルな質問と,それに対応する視覚化を組み合わせたデータセットを生成するフレームワークを提案する。我々は、GQVisを生成するために、3つの異なるゲノムデータレポジトリ(4DN, ENCODE, Chromoscope)から取得したゲノムデータを用いている。
論文参考訳（メタデータ） (2025-09-19T21:29:13Z)
PeerQA: A Scientific Question Answering Dataset from Peer Reviews [51.95579001315713]
実世界の科学的、文書レベルの質問回答データセットであるPeerQAを提示する。データセットには208の学術論文から579のQAペアが含まれており、MLとNLPが多数を占めている。収集したデータセットを詳細に分析し、3つのタスクのベースラインシステムを確立する実験を行う。
論文参考訳（メタデータ） (2025-02-19T12:24:46Z)
A Comprehensive Survey on Visual Question Answering Datasets and Algorithms [1.941892373913038]
我々は、VQAデータセットとモデルの現状を慎重に分析し、それらを異なるカテゴリにきれいに分割し、各カテゴリの方法論と特徴を要約する。 VQAモデルの6つの主要なパラダイムを探求する。融合、注意、あるモードからの情報を用いて、別のモードからの情報をフィルタリングする技法、外部知識ベース、構成または推論、グラフモデルである。
論文参考訳（メタデータ） (2024-11-17T18:52:06Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。 QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文参考訳（メタデータ） (2023-09-19T05:20:36Z)
Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories [41.2406955639537]
Encyclopedic-VQAは大規模な視覚的質問応答データセットである。それぞれが(最大5つの画像にマッチする221万のユニークな質問+回答のペアを含んでいる。私たちのデータセットには、Wikipediaから派生した制御された知識ベースがあります。
論文参考訳（メタデータ） (2023-06-15T16:03:01Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文参考訳（メタデータ） (2022-06-03T17:52:27Z)
Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2020-04-24T17:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。