論文の概要: Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain
- arxiv url: http://arxiv.org/abs/2507.16974v1
- Date: Tue, 22 Jul 2025 19:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.750163
- Title: Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain
- Title(参考訳): 農業領域における多言語LLMを用いた質問応答のための合成データの利用
- Authors: Rishemjit Kaur, Arshdeep Singh Bhankhar, Surangika Ranathunga, Jashanpreet Singh Salh, Sudhir Rajput, Vidhi, Kashish Mahendra, Bhavika Berwal, Ritesh Kumar,
- Abstract要約: 農業における大規模言語モデル(LLM)は一般的に、局所的および多言語的文脈における精度を欠いた一般的なアドバイザリを提供する。
本研究では,多言語合成農業データセット(ヒンディー語,パンジャービ語,ヒンディー語,パンジャービ語)を農業用文書および微調整言語用LPMから生成する。
キュレートされた多言語データセットに対する評価は,事実的正確性,妥当性,農業的コンセンサスにおいて有意な改善を示した。
- 参考スコア(独自算出の注目度): 1.0144032120138065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enabling farmers to access accurate agriculture-related information in their native languages in a timely manner is crucial for the success of the agriculture field. Although large language models (LLMs) can be used to implement Question Answering (QA) systems, simply using publicly available general-purpose LLMs in agriculture typically offer generic advisories, lacking precision in local and multilingual contexts due to insufficient domain-specific training and scarcity of high-quality, region-specific datasets. Our study addresses these limitations by generating multilingual synthetic agricultural datasets (English, Hindi, Punjabi) from agriculture-specific documents and fine-tuning language-specific LLMs. Our evaluation on curated multilingual datasets demonstrates significant improvements in factual accuracy, relevance, and agricultural consensus for the fine-tuned models compared to their baseline counterparts. These results highlight the efficacy of synthetic data-driven, language-specific fine-tuning as an effective strategy to improve the performance of LLMs in agriculture, especially in multilingual and low-resource settings. By enabling more accurate and localized agricultural advisory services, this study provides a meaningful step toward bridging the knowledge gap in AI-driven agricultural solutions for diverse linguistic communities.
- Abstract(参考訳): 農業分野の成功のためには、農家が自国の言語で正確な農業関連情報にタイムリーにアクセスできるよう促すことが不可欠である。
大規模言語モデル(LLM)は質問回答システム(QA)を実装するのに使えるが、農業で一般に利用可能な汎用LSMは一般的に一般的な助言を提供するが、ドメイン固有の訓練が不十分で、高品質で地域固有のデータセットが不足しているため、局所的および多言語的な文脈での精度が欠如している。
本研究は,農業固有の文書から多言語合成農業データセット(英語,ヒンディー語,パンジャビ語)を生成することにより,これらの制約に対処する。
得られた多言語データセットに対する評価は, 精度, 関連性, 農業コンセンサスが, ベースラインモデルと比較して有意に向上したことを示す。
これらの結果から, 農業, 特に多言語・低リソース環境において, LLMの性能向上のための効果的な戦略として, 合成データ駆動, 言語特異的微調整の有効性が示された。
本研究は,より正確かつ局所的な農業アドバイザリーサービスを実現することにより,多様な言語コミュニティを対象としたAI駆動型農業ソリューションの知識ギャップを埋める上で有意義なステップを提供する。
関連論文リスト
- Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - AgroLLM: Connecting Farmers and Agricultural Practices through Large Language Models for Enhanced Knowledge Transfer and Practical Application [1.9643850583333375]
AgroLLMは、Large Language Models(LLM)とRetrieval-Augmented Generation(RAG)フレームワークを使用して、農業における知識共有と教育を強化するように設計されている。
4つの主要農業領域における性能評価のための3つの先進モデルの比較研究を行った。
RAGを用いたChatGPT-4o Miniの精度は93%であった。
論文 参考訳(メタデータ) (2025-02-28T04:13:18Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。
このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。
本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T04:34:23Z) - AgriBench: A Hierarchical Agriculture Benchmark for Multimodal Large Language Models [4.12825661607328]
AgriBenchは農業用マルチモーダル言語モデル(MM-LLM)を評価するために設計された最初のベンチマークである。
我々は,1,784の景観イメージ,セグメンテーションマスク,深度マップ,詳細なアノテーションを含むマルチモーダル農業データセットMM-LUCASを提案する。
本研究は,農業におけるMM-LLMの進歩における画期的な視点を示し,現在進行中であり,専門知識に基づくMM-LLMの今後の発展と革新に価値ある洞察を提供する。
論文 参考訳(メタデータ) (2024-11-30T12:59:03Z) - AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning [30.034193330398292]
本稿では,農業領域における視覚のみのデータを活用した指導調整データの構築手法を提案する。
我々は、複数のドメインにまたがる多様な農業データセットを利用し、クラス固有の情報をキュレートし、大規模言語モデル(LLM)を用いてエキスパートチューニングセットを構築する。
AgroGPTは、複雑な農業関連の会話を処理し、有用な洞察を提供する効率的なLMMである。
論文 参考訳(メタデータ) (2024-10-10T22:38:26Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。