Fugu-MT 論文翻訳(概要): A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis

論文の概要: A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis

arxiv url: http://arxiv.org/abs/2503.06973v1
Date: Mon, 10 Mar 2025 06:37:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.732971
Title: A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis
Title（参考訳）: 作物病診断のためのマルチモーダルベンチマークデータセットとモデル
Authors: Xiang Liu, Zhaoxiang Liu, Huan Hu, Zezhou Chen, Kohou Wang, Kai Wang, Shiguo Lian,
Abstract要約: 本稿では,農学研究の分野を開拓するための先駆的資源である作物病領域マルチモーダルデータセットについて紹介する。このデータセットは、さまざまな作物の病気の画像13万7000枚と、幅広い農業知識にまたがる100万の質問と回答のペアで構成されている。我々は,最先端のマルチモーダルモデルを微調整し,作物病診断の大幅な改善を示すことにより,データセットの有用性を実証する。
参考スコア（独自算出の注目度）: 5.006697347461899
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While conversational generative AI has shown considerable potential in enhancing decision-making for agricultural professionals, its exploration has predominantly been anchored in text-based interactions. The evolution of multimodal conversational AI, leveraging vast amounts of image-text data from diverse sources, marks a significant stride forward. However, the application of such advanced vision-language models in the agricultural domain, particularly for crop disease diagnosis, remains underexplored. In this work, we present the crop disease domain multimodal (CDDM) dataset, a pioneering resource designed to advance the field of agricultural research through the application of multimodal learning techniques. The dataset comprises 137,000 images of various crop diseases, accompanied by 1 million question-answer pairs that span a broad spectrum of agricultural knowledge, from disease identification to management practices. By integrating visual and textual data, CDDM facilitates the development of sophisticated question-answering systems capable of providing precise, useful advice to farmers and agricultural professionals. We demonstrate the utility of the dataset by finetuning state-of-the-art multimodal models, showcasing significant improvements in crop disease diagnosis. Specifically, we employed a novel finetuning strategy that utilizes low-rank adaptation (LoRA) to finetune the visual encoder, adapter and language model simultaneously. Our contributions include not only the dataset but also a finetuning strategy and a benchmark to stimulate further research in agricultural technology, aiming to bridge the gap between advanced AI techniques and practical agricultural applications. The dataset is available at https: //github.com/UnicomAI/UnicomBenchmark/tree/main/CDDMBench.
Abstract（参考訳）: 会話生成AIは、農業専門家の意思決定を促進する大きな可能性を示しているが、その探索は主にテキストベースのインタラクションに固定されている。多様なソースから大量の画像テキストデータを活用するマルチモーダルな会話型AIの進化は、大きな一歩を踏み出した。しかし、農業分野、特に作物病の診断における先進的な視覚言語モデルの応用はいまだに未調査である。本研究では,農業研究分野の先駆的資源である作物病領域マルチモーダル(CDDM)データセットについて,マルチモーダル学習技術の適用を通じて紹介する。このデータセットは、さまざまな作物の病気の13万7000枚の画像で構成されており、100万枚の質問と回答のペアが、病気の識別から管理の実践に至るまで、幅広い農業知識にまたがっている。視覚的およびテキスト的データを統合することにより、CDDMは、農家や農業専門家に正確かつ有用なアドバイスを提供することのできる洗練された質問応答システムの開発を促進する。我々は,最先端のマルチモーダルモデルを微調整し,作物病診断の大幅な改善を示すことにより,データセットの有用性を実証する。具体的には、ローランク適応(LoRA)を利用して視覚エンコーダ、アダプタ、言語モデルを同時に微調整する新しい微調整戦略を採用した。私たちのコントリビューションには、データセットだけでなく、精密な戦略や、農業技術のさらなる研究を促進するためのベンチマークが含まれています。データセットはhttps: //github.com/UnicomAI/UnicomBenchmark/tree/main/CDDMBenchで利用可能である。

関連論文リスト

Multimodal Agricultural Agent Architecture (MA3): A New Paradigm for Intelligent Agricultural Decision-Making [32.62816270192696]
現代の農業は生産効率を最適化し、持続可能な開発を達成するという2つの課題に直面している。これらの課題に対処するために,本研究では,革新的なtextbfMultimodal textbfAgricultural textbfAgent textbfArchitecture (textbfMA3)を提案する。本研究では、分類、検出、視覚質問応答(VQA)、ツール選択、エージェント評価の5つの主要なタスクを含むマルチモーダル農業エージェントデータセットを構築した。
論文参考訳（メタデータ） (2025-04-07T07:32:41Z)
Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文参考訳（メタデータ） (2024-12-03T04:34:23Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning [30.034193330398292]
本稿では,農業領域における視覚のみのデータを活用した指導調整データの構築手法を提案する。我々は、複数のドメインにまたがる多様な農業データセットを利用し、クラス固有の情報をキュレートし、大規模言語モデル(LLM)を用いてエキスパートチューニングセットを構築する。 AgroGPTは、複雑な農業関連の会話を処理し、有用な洞察を提供する効率的なLMMである。
論文参考訳（メタデータ） (2024-10-10T22:38:26Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 10のモダリティで2500万枚以上の画像をカバーしており、65以上の疾患に対する多彩なアノテーションがある。画像テキストペアの可用性によって制限された既存のアプローチとは異なり、私たちは最初の自動パイプラインを開発しました。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
Information Fusion in Smart Agriculture: Machine Learning Applications and Future Research Directions [6.060623947643556]
レビューでは、機械学習(ML)技術とマルチソースデータ融合が組み合わさって、予測精度と意思決定を改善して精度の高い農業を強化する方法について論じている。このレビューはAI研究と農業応用のギャップを埋め、研究者、産業専門家、政策立案者に情報融合とMLを利用して精密農業を推進するためのロードマップを提供する。
論文参考訳（メタデータ） (2024-05-23T17:53:31Z)
Generating Diverse Agricultural Data for Vision-Based Farming Applications [74.79409721178489]
このモデルは, 植物の成長段階, 土壌条件の多様性, 照明条件の異なるランダム化フィールド配置をシミュレートすることができる。我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。
論文参考訳（メタデータ） (2024-03-27T08:42:47Z)
Explainable AI in Grassland Monitoring: Enhancing Model Performance and Domain Adaptability [0.6131022957085438]
草原は高い生物多様性と複数の生態系サービスを提供する能力で知られている。指標植物の自動識別の課題は、大規模な草地モニタリングの鍵となる障害である。本稿では,移動学習と草地モニタリングへのXAIアプローチを中心に,後者の2つの課題を考察する。
論文参考訳（メタデータ） (2023-12-13T10:17:48Z)
Agriculture-Vision: A Large Aerial Image Database for Agricultural Pattern Analysis [110.30849704592592]
本稿では,農業パターンのセマンティックセグメンテーションのための大規模空中農地画像データセットであるGarmry-Visionを提案する。各画像はRGBと近赤外線(NIR)チャンネルで構成され、解像度は1ピクセルあたり10cmである。農家にとって最も重要な9種類のフィールド異常パターンに注釈を付ける。
論文参考訳（メタデータ） (2020-01-05T20:19:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。