Fugu-MT 論文翻訳(概要): GPT-4 as Evaluator: Evaluating Large Language Models on Pest Management in Agriculture

論文の概要: GPT-4 as Evaluator: Evaluating Large Language Models on Pest Management in Agriculture

arxiv url: http://arxiv.org/abs/2403.11858v1
Date: Mon, 18 Mar 2024 15:08:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 20:00:12.474568
Title: GPT-4 as Evaluator: Evaluating Large Language Models on Pest Management in Agriculture
Title（参考訳）: 評価指標としてのGPT-4:農業における害虫管理における大規模言語モデルの評価
Authors: Shanglong Yang, Zhipeng Yuan, Shunbao Li, Ruoling Peng, Kang Liu, Po Yang,
Abstract要約: 農業、特に害虫管理における大規模言語モデル(LLM)の適用は、まだ初期段階である。我々は,OpenAIのGenerative Pre-trained Transformer(GPT)シリーズやGoogleのFLANシリーズなど,LLMsが生み出す害虫管理アドバイスの内容を評価することで,その実現可能性を証明することを目的とした。我々は, GPT-4 を評価指標として, コヒーレンス, 論理的一貫性, 頻度, 妥当性, 包括性, 露出性について, 生成した内容を評価する革新的な手法を提案した。
参考スコア（独自算出の注目度）: 7.458004824488893
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the rapidly evolving field of artificial intelligence (AI), the application of large language models (LLMs) in agriculture, particularly in pest management, remains nascent. We aimed to prove the feasibility by evaluating the content of the pest management advice generated by LLMs, including the Generative Pre-trained Transformer (GPT) series from OpenAI and the FLAN series from Google. Considering the context-specific properties of agricultural advice, automatically measuring or quantifying the quality of text generated by LLMs becomes a significant challenge. We proposed an innovative approach, using GPT-4 as an evaluator, to score the generated content on Coherence, Logical Consistency, Fluency, Relevance, Comprehensibility, and Exhaustiveness. Additionally, we integrated an expert system based on crop threshold data as a baseline to obtain scores for Factual Accuracy on whether pests found in crop fields should take management action. Each model's score was weighted by percentage to obtain a final score. The results showed that GPT-3.4 and GPT-4 outperform the FLAN models in most evaluation categories. Furthermore, the use of instruction-based prompting containing domain-specific knowledge proved the feasibility of LLMs as an effective tool in agriculture, with an accuracy rate of 72%, demonstrating LLMs' effectiveness in providing pest management suggestions.
Abstract（参考訳）: 人工知能(AI)の急速に発展する分野では、農業、特に害虫管理における大規模言語モデル(LLM)の適用は、いまだに初期段階にある。我々は,OpenAIのGenerative Pre-trained Transformer(GPT)シリーズやGoogleのFLANシリーズなど,LLMsが生み出す害虫管理アドバイスの内容を評価することで,その実現可能性を証明することを目的とした。農業アドバイスの文脈固有の性質を考えると、LLMが生成するテキストの品質を自動的に測定または定量化することは重要な課題である。我々は, GPT-4 を評価指標として, コヒーレンス, 論理的一貫性, 頻度, 妥当性, 包括性, 実行性について, 生成した内容を評価する革新的な手法を提案した。さらに,収穫閾値データに基づくエキスパートシステムをベースラインとして統合し,農作物に生息する害虫が管理行動をとるかどうかの実態的精度のスコアを得る。各モデルのスコアは、最終的なスコアを得るためにパーセンテージによって重み付けされた。その結果, GPT-3.4 と GPT-4 はほとんどの評価カテゴリーにおいて FLAN モデルより優れていた。さらに、ドメイン固有の知識を含む指導ベースのプロンプトの使用は、農耕において有効なツールとしてLLMsが有効であることが証明され、精度は72%となり、害虫管理の提案を行う上でのLLMsの有効性が示された。

関連論文リスト

Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
LLMs for Enhanced Agricultural Meteorological Recommendations [0.0]
農業気象学の勧告は、天気予報、土壌条件、作物固有のデータに基づいて、農家に実用的な洞察を提供することによって、作物の生産性と持続可能性を高めるために不可欠である。本稿では,大規模言語モデル(LLM)を活用した新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-30T18:10:49Z)
Enhancing Agricultural Machinery Management through Advanced LLM Integration [0.7366405857677226]
人工知能の農業実践への統合は、農業における効率性と持続可能性に革命をもたらす可能性がある。本稿では,大規模言語モデル(LLM),特にGPT-4を活用して,農業機械経営における意思決定プロセスを強化する手法を提案する。
論文参考訳（メタデータ） (2024-07-30T06:49:55Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs [5.798411590796167]
本稿では,敵対的攻撃シナリオ下での大規模言語モデルの堅牢性を体系的に評価する枠組みを提案する。筆者らの枠組みは知識グラフの三つ子から独自のプロンプトを生成し,毒殺によって敵のプロンプトを生成する。 GPT-4-turbo > GPT-4o > GPT-3.5-turbo としてChatGPTファミリーの対角的ロバスト性が評価された。
論文参考訳（メタデータ） (2024-06-16T04:48:43Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Biomedical knowledge graph-optimized prompt generation for large language models [1.6658478064349376]
大規模言語モデル(LLM)は前例のない速度で採用されているが、バイオメディシンのような知識集約ドメインでは依然として課題に直面している。本稿では,トークン最適化およびロバストな知識グラフに基づくRetrieval Augmented Generationフレームワークを紹介する。
論文参考訳（メタデータ） (2023-11-29T03:07:00Z)
Large Language Models as Automated Aligners for benchmarking Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文参考訳（メタデータ） (2023-11-24T16:12:05Z)
GPT-4 as an Agronomist Assistant? Answering Agriculture Exams Using Large Language Models [1.3999521658236698]
大規模言語モデル(LLM)は、様々な領域にわたる自然言語理解において顕著な能力を示した。本稿では,Llama 2 や GPT などの一般的な LLM の総合的な評価を行い,農業関連問題への回答能力について述べる。ブラジル、インド、米国の三大農業生産国から、農業試験とベンチマークデータセットを選択した。
論文参考訳（メタデータ） (2023-10-10T00:39:04Z)
LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities [66.36633042421387]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文参考訳（メタデータ） (2023-05-22T15:56:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。