論文の概要: Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain
- arxiv url: http://arxiv.org/abs/2507.16974v2
- Date: Fri, 01 Aug 2025 09:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 14:06:53.567641
- Title: Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain
- Title(参考訳): 農業領域における多言語LLMを用いた質問応答のための合成データの利用
- Authors: Rishemjit Kaur, Arshdeep Singh Bhankhar, Jashanpreet Singh Salh, Sudhir Rajput, Vidhi, Kashish Mahendra, Bhavika Berwal, Ritesh Kumar, Surangika Ranathunga,
- Abstract要約: 本研究は,インドの農業特化資料から多言語(ヒンディー語,パンジャービ語)の合成データセットを生成する。
人為的データセットの評価は、事実性、関連性、農業コンセンサスにおいて著しく改善されている。
- 参考スコア(独自算出の注目度): 1.0144032120138065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enabling farmers to access accurate agriculture-related information in their native languages in a timely manner is crucial for the success of the agriculture field. Publicly available general-purpose Large Language Models (LLMs) typically offer generic agriculture advisories, lacking precision in local and multilingual contexts. Our study addresses this limitation by generating multilingual (English, Hindi, Punjabi) synthetic datasets from agriculture-specific documents from India and fine-tuning LLMs for the task of question answering (QA). Evaluation on human-created datasets demonstrates significant improvements in factuality, relevance, and agricultural consensus for the fine-tuned LLMs compared to the baseline counterparts.
- Abstract(参考訳): 農業分野の成功のためには、農家が自国の言語で正確な農業関連情報にタイムリーにアクセスできるよう促すことが不可欠である。
一般に利用可能な汎用大規模言語モデル(LLM)は、一般的に、局所的および多言語的文脈における精度の欠如により、一般的な農業アドバイザリーを提供する。
本研究は,インドからの農業特化文書から多言語(英語,ヒンディー語,パンジャービ語)合成データセットを生成し,質問応答(QA)のための微調整LDMを作成した。
人為的データセットの評価は, ベースラインデータセットと比較して, 微調整LDMの事実性, 関連性, 農業コンセンサスを著しく改善したことを示す。
関連論文リスト
- AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models [19.265932725554833]
本稿では,中国初の総合農業ベンチマークであるAgriEvalを提案する。
AgriEvalは6つの主要な農業カテゴリーと29の農業部門をカバーし、4つの中核的な認知シナリオに対処している。
AgriEvalは14,697の質問と2,167のオープンエンドの質問と回答からなる。
論文 参考訳(メタデータ) (2025-07-29T12:58:27Z) - AgriCHN: A Comprehensive Cross-domain Resource for Chinese Agricultural Named Entity Recognition [30.51577375197722]
本稿では,AgriCHNについて紹介する。AgriCHNは,自動化農業エンティティアノテーションの精度を高めるために設計された,包括的なオープンソース中国語リソースである。
データセットは、合計4,040件の文と15,799件の農業団体の言及をカプセル化した、豊富な農業記事から慎重に収集されている。
ベンチマークタスクは、いくつかの最先端のニューラルNERモデルを使用して構築されている。
論文 参考訳(メタデータ) (2025-06-21T04:21:11Z) - Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - AgroLLM: Connecting Farmers and Agricultural Practices through Large Language Models for Enhanced Knowledge Transfer and Practical Application [1.9643850583333375]
AgroLLMは、Large Language Models(LLM)とRetrieval-Augmented Generation(RAG)フレームワークを使用して、農業における知識共有と教育を強化するように設計されている。
4つの主要農業領域における性能評価のための3つの先進モデルの比較研究を行った。
RAGを用いたChatGPT-4o Miniの精度は93%であった。
論文 参考訳(メタデータ) (2025-02-28T04:13:18Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。
このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。
本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T04:34:23Z) - AgriBench: A Hierarchical Agriculture Benchmark for Multimodal Large Language Models [4.12825661607328]
AgriBenchは農業用マルチモーダル言語モデル(MM-LLM)を評価するために設計された最初のベンチマークである。
我々は,1,784の景観イメージ,セグメンテーションマスク,深度マップ,詳細なアノテーションを含むマルチモーダル農業データセットMM-LUCASを提案する。
本研究は,農業におけるMM-LLMの進歩における画期的な視点を示し,現在進行中であり,専門知識に基づくMM-LLMの今後の発展と革新に価値ある洞察を提供する。
論文 参考訳(メタデータ) (2024-11-30T12:59:03Z) - AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning [30.034193330398292]
本稿では,農業領域における視覚のみのデータを活用した指導調整データの構築手法を提案する。
我々は、複数のドメインにまたがる多様な農業データセットを利用し、クラス固有の情報をキュレートし、大規模言語モデル(LLM)を用いてエキスパートチューニングセットを構築する。
AgroGPTは、複雑な農業関連の会話を処理し、有用な洞察を提供する効率的なLMMである。
論文 参考訳(メタデータ) (2024-10-10T22:38:26Z) - Generating Diverse Agricultural Data for Vision-Based Farming Applications [74.79409721178489]
このモデルは, 植物の成長段階, 土壌条件の多様性, 照明条件の異なるランダム化フィールド配置をシミュレートすることができる。
我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。
論文 参考訳(メタデータ) (2024-03-27T08:42:47Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Embedding-based Retrieval with LLM for Effective Agriculture Information
Extracting from Unstructured Data [5.573704309892796]
農業用文書から人的介入を最小限に抑えて構造化されたデータを抽出するために,ドメインに依存しない一般学習型大規模言語モデル(LLM)について検討する。
既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2023-08-06T13:18:38Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。