論文の概要: GPT-4 as Evaluator: Evaluating Large Language Models on Pest Management in Agriculture
- arxiv url: http://arxiv.org/abs/2403.11858v1
- Date: Mon, 18 Mar 2024 15:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:00:12.474568
- Title: GPT-4 as Evaluator: Evaluating Large Language Models on Pest Management in Agriculture
- Title(参考訳): 評価指標としてのGPT-4:農業における害虫管理における大規模言語モデルの評価
- Authors: Shanglong Yang, Zhipeng Yuan, Shunbao Li, Ruoling Peng, Kang Liu, Po Yang,
- Abstract要約: 農業、特に害虫管理における大規模言語モデル(LLM)の適用は、まだ初期段階である。
我々は,OpenAIのGenerative Pre-trained Transformer(GPT)シリーズやGoogleのFLANシリーズなど,LLMsが生み出す害虫管理アドバイスの内容を評価することで,その実現可能性を証明することを目的とした。
我々は, GPT-4 を評価指標として, コヒーレンス, 論理的一貫性, 頻度, 妥当性, 包括性, 露出性について, 生成した内容を評価する革新的な手法を提案した。
- 参考スコア(独自算出の注目度): 7.458004824488893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving field of artificial intelligence (AI), the application of large language models (LLMs) in agriculture, particularly in pest management, remains nascent. We aimed to prove the feasibility by evaluating the content of the pest management advice generated by LLMs, including the Generative Pre-trained Transformer (GPT) series from OpenAI and the FLAN series from Google. Considering the context-specific properties of agricultural advice, automatically measuring or quantifying the quality of text generated by LLMs becomes a significant challenge. We proposed an innovative approach, using GPT-4 as an evaluator, to score the generated content on Coherence, Logical Consistency, Fluency, Relevance, Comprehensibility, and Exhaustiveness. Additionally, we integrated an expert system based on crop threshold data as a baseline to obtain scores for Factual Accuracy on whether pests found in crop fields should take management action. Each model's score was weighted by percentage to obtain a final score. The results showed that GPT-3.4 and GPT-4 outperform the FLAN models in most evaluation categories. Furthermore, the use of instruction-based prompting containing domain-specific knowledge proved the feasibility of LLMs as an effective tool in agriculture, with an accuracy rate of 72%, demonstrating LLMs' effectiveness in providing pest management suggestions.
- Abstract(参考訳): 人工知能(AI)の急速に発展する分野では、農業、特に害虫管理における大規模言語モデル(LLM)の適用は、いまだに初期段階にある。
我々は,OpenAIのGenerative Pre-trained Transformer(GPT)シリーズやGoogleのFLANシリーズなど,LLMsが生み出す害虫管理アドバイスの内容を評価することで,その実現可能性を証明することを目的とした。
農業アドバイスの文脈固有の性質を考えると、LLMが生成するテキストの品質を自動的に測定または定量化することは重要な課題である。
我々は, GPT-4 を評価指標として, コヒーレンス, 論理的一貫性, 頻度, 妥当性, 包括性, 実行性について, 生成した内容を評価する革新的な手法を提案した。
さらに,収穫閾値データに基づくエキスパートシステムをベースラインとして統合し,農作物に生息する害虫が管理行動をとるかどうかの実態的精度のスコアを得る。
各モデルのスコアは、最終的なスコアを得るためにパーセンテージによって重み付けされた。
その結果, GPT-3.4 と GPT-4 はほとんどの評価カテゴリーにおいて FLAN モデルより優れていた。
さらに、ドメイン固有の知識を含む指導ベースのプロンプトの使用は、農耕において有効なツールとしてLLMsが有効であることが証明され、精度は72%となり、害虫管理の提案を行う上でのLLMsの有効性が示された。
関連論文リスト
- RepEval: Effective Text Evaluation with LLM Representation [54.07909112633993]
評価のためにLLM表現の投影を利用した最初の計量であるRepEvalを紹介する。
RepEvalはトレーニングに最小限のサンプルペアを必要とし、簡単なプロンプト修正によって、さまざまなタスクに簡単に移行できる。
3つのタスクから得られた10個のデータセットの結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on
Agriculture [2.4184993026516213]
我々は、微調整とRAGのためのパイプラインを提案し、人気のあるLarge Language Modelのトレードオフを提示する。
この結果から,データセット生成パイプラインの有効性が示唆された。
論文 参考訳(メタデータ) (2024-01-16T14:44:47Z) - Causality and Explainability for Trustworthy Integrated Pest Management [7.959785949113534]
統合農薬管理(IPM)は、農薬の代替品である。
IPMは、その可能性にもかかわらず、農家の有効性に対する懐疑的なため、採用率の低下に直面している。
我々は、IMMの採用を促進するために、高度なデータ分析フレームワークを導入します。
論文 参考訳(メタデータ) (2023-12-07T15:05:26Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [29.914546407784552]
GLoREは3種類のタスクにまたがる12のデータセットからなるベンチマークである。
ChatGPTとGPT-4は論理的推論の強い能力を示し、GPT-4はChatGPTをはるかに上回っている。
本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を向上させる微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - GPT-4 as an Agronomist Assistant? Answering Agriculture Exams Using
Large Language Models [1.3999521658236698]
大規模言語モデル(LLM)は、様々な領域にわたる自然言語理解において顕著な能力を示した。
本稿では,Llama 2 や GPT などの一般的な LLM の総合的な評価を行い,農業関連問題への回答能力について述べる。
ブラジル、インド、米国の三大農業生産国から、農業試験とベンチマークデータセットを選択した。
論文 参考訳(メタデータ) (2023-10-10T00:39:04Z) - Automatic Calibration and Error Correction for Generative Large Language
Models via Pareto Optimal Self-Supervision [13.348376207148789]
大規模言語モデル(LLM)は、広範囲のアプリケーションで顕著な機能を示しているが、未処理や誤応答の低減は依然として大きな成長領域である。
本稿では,LLM応答の系統的調整に利用可能なプログラム制御を活用できるフレームワークを提案する。
バイオメディカルおよび一般領域における標準的関係抽出および分類タスクの実験は、提案したリスクスコアが実際のLCM誤差率と高い相関があることを実証している。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities
and Future Opportunities [68.86209486449924]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。