論文の概要: AgriPestDatabase-v1.0: A Structured Insect Dataset for Training Agricultural Large Language Model
- arxiv url: http://arxiv.org/abs/2603.22777v1
- Date: Tue, 24 Mar 2026 04:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.295943
- Title: AgriPestDatabase-v1.0: A Structured Insect Dataset for Training Agricultural Large Language Model
- Title(参考訳): AgriPestDatabase-v1.0: 農業用大規模言語モデルのトレーニングのための構造化昆虫データセット
- Authors: Yagizhan Bilal Durak, Ahsan Ul Islam, Shahidul Islam, Ashley Morgan-Olvera, Iftekhar Ibne Basith, Syed Hasib Akhter Faruqui,
- Abstract要約: 農業害虫管理は、専門家の知識へのタイムリーかつ正確なアクセスにますます依存しているが、高品質なラベル付きデータと継続的な専門家のサポートは限られている。
この研究は、(i)構造化された昆虫情報データセットを生成し、(ii)農業害虫管理に使用するエッジデバイスに微調整して軽量LLMモデルを適応させることに対処する。
専門的な組織データ、よく構造化されたQ/Aペア、セマンティックな品質管理、効率的なモデル適応を組み合わせることで、農業意思決定支援ツールに直面する農家への支援に貢献する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agricultural pest management increasingly relies on timely and accurate access to expert knowledge, yet high quality labeled data and continuous expert support remain limited, particularly for farmers operating in rural regions with unstable/no internet connectivity. At the same time, the rapid growth of AI and LLMs has created new opportunities to deliver practical decision support tools directly to end users in agriculture through compact and deployable systems. This work addresses (i) generating a structured insect information dataset, and (ii) adapting a lightweight LLM model ($\leq$ 7B) by fine tuning it for edge device uses in agricultural pest management. The textual data collection was done by reviewing and collecting information from available pest databases and published manuscripts on nine selected pest species. These structured reports were then reviewed and validated by a domain expert. From these reports, we constructed Q/A pairs to support model training and evaluation. A LoRA-based fine-tuning approach was applied to multiple lightweight LLMs and evaluated. Initial evaluation shows that Mistral 7B achieves an 88.9\% pass rate on the domain-specific Q/A task, substantially outperforming Qwen 2.5 7B (63.9\%), and LLaMA 3.1 8B (58.7\%). Notably, Mistral demonstrates higher semantic alignment (embedding similarity: 0.865) despite lower lexical overlap (BLEU: 0.097), indicating that semantic understanding and robust reasoning are more predictive of task success than surface-level conformity in specialized domains. By combining expert organized data, well-structured Q/A pairs, semantic quality control, and efficient model adaptation, this work contributes towards providing support for farmer facing agricultural decision support tools and demonstrates the feasibility of deploying compact, high-performing language models for practical field-level pest management guidance.
- Abstract(参考訳): 農業害虫管理は、専門家の知識へのタイムリーかつ正確なアクセスにますます依存しているが、高品質なラベル付きデータと継続的な専門家支援は、特に不安定でインターネット接続のない農村部で活動している農家に限られている。
同時に、AIとLLMの急速な成長は、コンパクトでデプロイ可能なシステムを通じて、農業のエンドユーザに直接実用的な意思決定支援ツールを提供する新たな機会を生み出しました。
この仕事の住所
一 構造化昆虫情報データセットの作成、及び
(II)農業害虫管理に使用するエッジデバイスに微調整して軽量LLMモデル($7B)を適用する。
テキストデータ収集は、利用可能な害虫データベースから情報をレビューし、収集し、選択した害虫9種の原稿を出版した。
これらの構造化されたレポートは、ドメインの専門家によってレビューされ、検証された。
これらの報告から,モデルトレーニングと評価を支援するQ/Aペアを構築した。
複数の軽量LCMにLoRAを用いたファインチューニング手法を適用し,評価を行った。
初期評価では、Mistral 7Bはドメイン固有のQ/Aタスクにおいて88.9\%のパスレートを達成し、Qwen 2.57B(63.9\%)とLLaMA 3.18B(58.7\%)を大きく上回っている。
特にミストラルは、語彙重なりが低い(BLEU: 0.097)にもかかわらず、意味的アライメント(類似性:0.865)が高く、意味的理解と頑健な推論が特殊領域の表面レベル整合性よりもタスク成功の予測的であることを示している。
本研究は、熟練した組織データ、よく構造化されたQ/Aペア、セマンティック品質制御、効率的なモデル適応を組み合わせることにより、農家が農業意思決定支援ツールに直面する支援を提供することに寄与し、実践的なフィールドレベルの害虫管理指導のために、コンパクトで高性能な言語モデルを展開可能であることを実証する。
関連論文リスト
- AgriChat: A Multimodal Large Language Model for Agriculture Image Understanding [13.665861251747144]
我々は、数千の農業階級にまたがる幅広い知識を提示し、説明付きの詳細な農業評価を提供する専門的なMLLMであるAgriChatを紹介する。
その結果、視覚的詳細をWebで検証された知識と組み合わせて保存することは、堅牢で信頼性の高い農業用AIへの信頼できる経路であることがわかった。
論文 参考訳(メタデータ) (2026-03-14T11:49:05Z) - AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents [17.904008870689964]
我々は,Pythonの実行環境であるAgriWorldを紹介し,フィールドパーセル上のクエリ,リモートセンシング時系列分析,作物の成長シミュレーション,タスク固有の予測器(収量,ストレス,病気リスクなど)について,統一的なツールを公開している。
この環境上では,複数ターンのAgroReflectiveエージェントを設計し,コードを反復的に書き,実行結果を観察し,実行-観測-再定義ループを通じて解析を洗練する。
論文 参考訳(メタデータ) (2026-02-17T03:12:57Z) - You only need 4 extra tokens: Synergistic Test-time Adaptation for LLMs [50.54173262572369]
大規模言語モデル (LLM) は、金融、医療、農業などの専門分野にますます導入されている。
本稿では,言語モデルに対するラベルフリーテスト時適応について検討し,追加の監督なしにモデルをオンザフライで適応する推論時フレームワークであるSyTTAについて述べる。
論文 参考訳(メタデータ) (2025-10-11T14:00:39Z) - AgriDoctor: A Multimodal Intelligent Assistant for Agriculture [45.77373971125537]
AgriDoctorは、インテリジェントな作物病診断と農業知識の相互作用のために設計されたモジュラーでマルチモーダルなフレームワークである。
効果的なトレーニングと評価を容易にするために,400000の注釈付き疾患画像,831のエキスパートによる知識エントリ,30000のバイリンガルプロンプトによるインテント駆動ツール選択のベンチマークであるAgriMMを構築した。
実験により、AgriMMで訓練されたAgriDoctorは、細粒度の農業作業において最先端のLVLMを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T11:51:57Z) - Towards an AI-based knowledge assistant for goat farmers based on Retrieval-Augmented Generation [5.133246658369731]
本研究では,ヤギの健康管理を支援する知的知識アシスタントシステムを提案する。
知識基盤は、疾病予防・治療、栄養管理、養育管理、ヤギ乳管理、基礎農業知識の5つの主要な領域にまたがっている。
オンライン検索モジュールは、最新情報のリアルタイム検索を可能にするために統合されている。
論文 参考訳(メタデータ) (2025-09-11T20:58:51Z) - Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain [1.0144032120138065]
本研究は,インドの農業特化資料から多言語(ヒンディー語,パンジャービ語)の合成データセットを生成する。
人為的データセットの評価は、事実性、関連性、農業コンセンサスにおいて著しく改善されている。
論文 参考訳(メタデータ) (2025-07-22T19:25:10Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - DavIR: Data Selection via Implicit Reward for Large Language Models [62.59514469369608]
DavIRは、学習後の大規模言語モデルのためのモデルベースのデータ選択手法である。
DavIRで選択したAlpacaデータセットの6%は、LLaMAモデルとGemmaモデルの両方を操り、フル52Kデータセットでトレーニングされたモデルと比較すると、優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Embedding-based Retrieval with LLM for Effective Agriculture Information
Extracting from Unstructured Data [5.573704309892796]
農業用文書から人的介入を最小限に抑えて構造化されたデータを抽出するために,ドメインに依存しない一般学習型大規模言語モデル(LLM)について検討する。
既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2023-08-06T13:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。