論文の概要: AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2407.19617v1
- Date: Mon, 29 Jul 2024 00:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:35:33.605139
- Title: AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs
- Title(参考訳): AgEval: マルチモーダルLCMを用いたゼロショットプラントストレス評価ベンチマーク
- Authors: Muhammad Arbab Arshad, Talukder Zaki Jubery, Tirtho Roy, Rim Nassiri, Asheesh K. Singh, Arti Singh, Chinmay Hegde, Baskar Ganapathysubramanian, Aditya Balu, Adarsh Krishnamurthy, Soumik Sarkar,
- Abstract要約: AgEvalは12種類の植物ストレス表現タスクからなるベンチマークである。
本研究は、最先端モデルのゼロショットおよび少数ショットのインコンテキスト学習性能を評価する。
- 参考スコア(独自算出の注目度): 19.7240633020344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Plant stress phenotyping traditionally relies on expert assessments and specialized models, limiting scalability in agriculture. Recent advances in multimodal large language models (LLMs) offer potential solutions to this challenge. We present AgEval, a benchmark comprising 12 diverse plant stress phenotyping tasks, to evaluate these models' capabilities. Our study assesses zero-shot and few-shot in-context learning performance of state-of-the-art models, including Claude, GPT, Gemini, and LLaVA. Results show significant performance improvements with few-shot learning, with F1 scores increasing from 46.24% to 73.37% in 8-shot identification for the best-performing model. Few-shot examples from other classes in the dataset have negligible or negative impacts, although having the exact category example helps to increase performance by 15.38%. We also quantify the consistency of model performance across different classes within each task, finding that the coefficient of variance (CV) ranges from 26.02% to 58.03% across models, implying that subject matter expertise is needed - of 'difficult' classes - to achieve reliability in performance. AgEval establishes baseline metrics for multimodal LLMs in agricultural applications, offering insights into their promise for enhancing plant stress phenotyping at scale. Benchmark and code can be accessed at: https://anonymous.4open.science/r/AgEval/
- Abstract(参考訳): 植物ストレスの表現型付けは伝統的に専門家の評価と専門モデルに依存しており、農業のスケーラビリティを制限している。
マルチモーダル大規模言語モデル(LLM)の最近の進歩は、この問題に対する潜在的な解決策を提供する。
本稿では,12種類の植物ストレス表現タスクからなるベンチマークであるAgEvalについて,これらのモデルの性能評価を行う。
本研究は,Claude,GPT,Gemini,LLaVAを含む最先端モデルのゼロショットおよび少数ショットのインコンテキスト学習性能を評価する。
F1スコアは46.24%から73.37%に向上した。
データセット内の他のクラスからのショット例は無視または否定的な影響があるが、正確なカテゴリ例を持つことでパフォーマンスが15.38%向上する。
また、各タスク内の異なるクラス間でのモデル性能の一貫性を定量化し、分散係数(CV)がモデル間で26.02%から58.03%の範囲であり、性能の信頼性を達成するためには「難易度」クラスにおいて主題の専門知識が必要であることを示唆する。
AgEvalは、農業応用におけるマルチモーダルLLMの基準指標を確立し、大規模に植物ストレスの表現力を高めるという彼らの約束に関する洞察を提供する。
ベンチマークとコードは、https://anonymous.4open.science/r/AgEval/でアクセスできます。
関連論文リスト
- Unraveling the Capabilities of Language Models in News Summarization [0.0]
この研究は、ニュース要約タスクのより小さなものに焦点を当てた、最新の20の言語モデルの包括的なベンチマークを提供する。
本研究では,ゼロショットと少数ショットの学習設定に着目し,ロバストな評価手法を適用した。
GPT-3.5-Turbo と GPT-4 の優れた性能を強調した。
論文 参考訳(メタデータ) (2025-01-30T04:20:16Z) - Linear Discriminant Analysis in Credit Scoring: A Transparent Hybrid Model Approach [9.88281854509076]
特徴量削減手法として線形判別分析 (LDA) を実装し, モデルの複雑さの軽減を図る。
我々のハイブリッドモデルであるXG-DNNは、99.45%の精度と99%のF1スコアでLDAを上回りました。
モデル決定を解釈するために、LIME (local) と Morris Sensitivity Analysis (global) という2つの異なる説明可能なAI技術を適用した。
論文 参考訳(メタデータ) (2024-12-05T14:21:18Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - Automated Classification of Dry Bean Varieties Using XGBoost and SVM Models [0.0]
本稿では,機械学習モデルを用いた7種類の乾燥豆の自動分類について比較検討する。
XGBoostとSVMのモデルはそれぞれ94.00%と94.39%の正確な分類率を達成した。
本研究は, 種子品質制御と収量最適化を効果的に支援できることを実証し, 精密農業への取り組みの活発化に寄与する。
論文 参考訳(メタデータ) (2024-08-02T13:05:33Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。