論文の概要: AgriChat: A Multimodal Large Language Model for Agriculture Image Understanding
- arxiv url: http://arxiv.org/abs/2603.16934v1
- Date: Sat, 14 Mar 2026 11:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.270924
- Title: AgriChat: A Multimodal Large Language Model for Agriculture Image Understanding
- Title(参考訳): AgriChat: 農業イメージ理解のためのマルチモーダル大規模言語モデル
- Authors: Abderrahmene Boudiaf, Irfan Hussain, Sajid Javed,
- Abstract要約: 我々は、数千の農業階級にまたがる幅広い知識を提示し、説明付きの詳細な農業評価を提供する専門的なMLLMであるAgriChatを紹介する。
その結果、視覚的詳細をWebで検証された知識と組み合わせて保存することは、堅牢で信頼性の高い農業用AIへの信頼できる経路であることがわかった。
- 参考スコア(独自算出の注目度): 13.665861251747144
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The deployment of Multimodal Large Language Models (MLLMs) in agriculture is currently stalled by a critical trade-off: the existing literature lacks the large-scale agricultural datasets required for robust model development and evaluation, while current state-of-the-art models lack the verified domain expertise necessary to reason across diverse taxonomies. To address these challenges, we propose the Vision-to-Verified-Knowledge (V2VK) pipeline, a novel generative AI-driven annotation framework that integrates visual captioning with web-augmented scientific retrieval to autonomously generate the AgriMM benchmark, effectively eliminating biological hallucinations by grounding training data in verified phytopathological literature. The AgriMM benchmark contains over 3,000 agricultural classes and more than 607k VQAs spanning multiple tasks, including fine-grained plant species identification, plant disease symptom recognition, crop counting, and ripeness assessment. Leveraging this verifiable data, we present AgriChat, a specialized MLLM that presents broad knowledge across thousands of agricultural classes and provides detailed agricultural assessments with extensive explanations. Extensive evaluation across diverse tasks, datasets, and evaluation conditions reveals both the capabilities and limitations of current agricultural MLLMs, while demonstrating AgriChat's superior performance over other open-source models, including internal and external benchmarks. The results validate that preserving visual detail combined with web-verified knowledge constitutes a reliable pathway toward robust and trustworthy agricultural AI. The code and dataset are publicly available at https://github.com/boudiafA/AgriChat .
- Abstract(参考訳): 既存の文献は、堅牢なモデルの開発と評価に必要な大規模農業データセットを欠いているのに対して、現在の最先端モデルは、多様な分類体系をまたいで推論するために必要な、検証済みのドメインの専門知識を欠いている。
これらの課題に対処するために、視覚的キャプションとWeb拡張された科学的検索を統合して、AgriMMベンチマークを自動生成する新しい生成AI駆動アノテーションフレームワークであるVision-to-Verified-Knowledge (V2VK)パイプラインを提案する。
AgriMMベンチマークには、3,000以上の農業クラスと607k以上のVQAが含まれており、細粒度植物種同定、植物病の症状認識、作物の計数、熟度評価など、複数のタスクにまたがっている。
この検証データを活用することで、数千の農業階級にまたがる幅広い知識を提示し、詳細な農業評価と広範な説明を提供する専門的なMLLMであるAgriChatを提示する。
多様なタスク、データセット、評価条件にわたる広範囲な評価は、現在の農業MLLMの能力と限界の両方を明らかにし、一方、内部および外部ベンチマークを含む他のオープンソースモデルよりもAgriChatの方が優れたパフォーマンスを示している。
その結果、視覚的詳細をWebで検証された知識と組み合わせて保存することは、堅牢で信頼性の高い農業用AIへの信頼できる経路であることがわかった。
コードとデータセットはhttps://github.com/boudiafA/AgriChat で公開されている。
関連論文リスト
- AgriDoctor: A Multimodal Intelligent Assistant for Agriculture [45.77373971125537]
AgriDoctorは、インテリジェントな作物病診断と農業知識の相互作用のために設計されたモジュラーでマルチモーダルなフレームワークである。
効果的なトレーニングと評価を容易にするために,400000の注釈付き疾患画像,831のエキスパートによる知識エントリ,30000のバイリンガルプロンプトによるインテント駆動ツール選択のベンチマークであるAgriMMを構築した。
実験により、AgriMMで訓練されたAgriDoctorは、細粒度の農業作業において最先端のLVLMを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T11:51:57Z) - AgriGPT: a Large Language Model Ecosystem for Agriculture [16.497060004913806]
AgriGPTは、農業利用のためのドメイン特化大規模言語モデルエコシステムである。
信頼性のあるデータソースを,高品質で標準化された質問応答データセットであるAgri-342Kにコンパイルする,スケーラブルなデータエンジンを設計する。
本稿では,高密度検索,スパース検索,マルチホップ知識グラフ推論を組み合わせた3チャンネル検索拡張フレームワークTri-RAGを用いる。
論文 参考訳(メタデータ) (2025-08-12T04:51:08Z) - AI in Agriculture: A Survey of Deep Learning Techniques for Crops, Fisheries and Livestock [77.95897723270453]
作物、漁業、家畜が世界の食料生産のバックボーンを形成し、成長を続ける世界の人口を養うのに不可欠である。
これらの問題に対処するには、効率的で正確でスケーラブルな技術ソリューションが必要であり、人工知能(AI)の重要性を強調している。
本調査では,従来の機械学習アプローチ,高度なディープラーニング技術,最新のビジョン言語基礎モデルなど,200以上の研究成果を体系的かつ徹底的にレビューする。
論文 参考訳(メタデータ) (2025-07-29T17:59:48Z) - A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis [5.006697347461899]
本稿では,農学研究の分野を開拓するための先駆的資源である作物病領域マルチモーダルデータセットについて紹介する。
このデータセットは、さまざまな作物の病気の画像13万7000枚と、幅広い農業知識にまたがる100万の質問と回答のペアで構成されている。
我々は,最先端のマルチモーダルモデルを微調整し,作物病診断の大幅な改善を示すことにより,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2025-03-10T06:37:42Z) - Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。
このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。
本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T04:34:23Z) - AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning [30.034193330398292]
本稿では,農業領域における視覚のみのデータを活用した指導調整データの構築手法を提案する。
我々は、複数のドメインにまたがる多様な農業データセットを利用し、クラス固有の情報をキュレートし、大規模言語モデル(LLM)を用いてエキスパートチューニングセットを構築する。
AgroGPTは、複雑な農業関連の会話を処理し、有用な洞察を提供する効率的なLMMである。
論文 参考訳(メタデータ) (2024-10-10T22:38:26Z) - Generating Diverse Agricultural Data for Vision-Based Farming Applications [74.79409721178489]
このモデルは, 植物の成長段階, 土壌条件の多様性, 照明条件の異なるランダム化フィールド配置をシミュレートすることができる。
我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。
論文 参考訳(メタデータ) (2024-03-27T08:42:47Z) - Agriculture-Vision: A Large Aerial Image Database for Agricultural
Pattern Analysis [110.30849704592592]
本稿では,農業パターンのセマンティックセグメンテーションのための大規模空中農地画像データセットであるGarmry-Visionを提案する。
各画像はRGBと近赤外線(NIR)チャンネルで構成され、解像度は1ピクセルあたり10cmである。
農家にとって最も重要な9種類のフィールド異常パターンに注釈を付ける。
論文 参考訳(メタデータ) (2020-01-05T20:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。