論文の概要: AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2407.19617v1
- Date: Mon, 29 Jul 2024 00:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:35:33.605139
- Title: AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs
- Title(参考訳): AgEval: マルチモーダルLCMを用いたゼロショットプラントストレス評価ベンチマーク
- Authors: Muhammad Arbab Arshad, Talukder Zaki Jubery, Tirtho Roy, Rim Nassiri, Asheesh K. Singh, Arti Singh, Chinmay Hegde, Baskar Ganapathysubramanian, Aditya Balu, Adarsh Krishnamurthy, Soumik Sarkar,
- Abstract要約: AgEvalは12種類の植物ストレス表現タスクからなるベンチマークである。
本研究は、最先端モデルのゼロショットおよび少数ショットのインコンテキスト学習性能を評価する。
- 参考スコア(独自算出の注目度): 19.7240633020344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Plant stress phenotyping traditionally relies on expert assessments and specialized models, limiting scalability in agriculture. Recent advances in multimodal large language models (LLMs) offer potential solutions to this challenge. We present AgEval, a benchmark comprising 12 diverse plant stress phenotyping tasks, to evaluate these models' capabilities. Our study assesses zero-shot and few-shot in-context learning performance of state-of-the-art models, including Claude, GPT, Gemini, and LLaVA. Results show significant performance improvements with few-shot learning, with F1 scores increasing from 46.24% to 73.37% in 8-shot identification for the best-performing model. Few-shot examples from other classes in the dataset have negligible or negative impacts, although having the exact category example helps to increase performance by 15.38%. We also quantify the consistency of model performance across different classes within each task, finding that the coefficient of variance (CV) ranges from 26.02% to 58.03% across models, implying that subject matter expertise is needed - of 'difficult' classes - to achieve reliability in performance. AgEval establishes baseline metrics for multimodal LLMs in agricultural applications, offering insights into their promise for enhancing plant stress phenotyping at scale. Benchmark and code can be accessed at: https://anonymous.4open.science/r/AgEval/
- Abstract(参考訳): 植物ストレスの表現型付けは伝統的に専門家の評価と専門モデルに依存しており、農業のスケーラビリティを制限している。
マルチモーダル大規模言語モデル(LLM)の最近の進歩は、この問題に対する潜在的な解決策を提供する。
本稿では,12種類の植物ストレス表現タスクからなるベンチマークであるAgEvalについて,これらのモデルの性能評価を行う。
本研究は,Claude,GPT,Gemini,LLaVAを含む最先端モデルのゼロショットおよび少数ショットのインコンテキスト学習性能を評価する。
F1スコアは46.24%から73.37%に向上した。
データセット内の他のクラスからのショット例は無視または否定的な影響があるが、正確なカテゴリ例を持つことでパフォーマンスが15.38%向上する。
また、各タスク内の異なるクラス間でのモデル性能の一貫性を定量化し、分散係数(CV)がモデル間で26.02%から58.03%の範囲であり、性能の信頼性を達成するためには「難易度」クラスにおいて主題の専門知識が必要であることを示唆する。
AgEvalは、農業応用におけるマルチモーダルLLMの基準指標を確立し、大規模に植物ストレスの表現力を高めるという彼らの約束に関する洞察を提供する。
ベンチマークとコードは、https://anonymous.4open.science/r/AgEval/でアクセスできます。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall [31.45796499298925]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示している。
プレトレーニングから学んだ事実的知識をリコールするLLMの能力を評価することに注力する。
10のモデルファミリーから31のモデルをベンチマークし、その長所と短所を総合的に評価する。
論文 参考訳(メタデータ) (2024-04-24T19:40:01Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるRussetポテトクローンの適合性を予測するため, 機械学習アルゴリズムの適用について検討する。
我々はオレゴン州で手作業で収集した試験のデータを活用している。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Distance Metric Learning Loss Functions in Few-Shot Scenarios of
Supervised Language Models Fine-Tuning [1.0323063834827415]
DML損失関数は、数ショットのシナリオで、RoBERTa-largeモデルの下流分類タスクのパフォーマンスを向上させることができる。
ソフトトリプル損失を用いて微調整したモデルでは、標準のカテゴリーのクロスエントロピー損失関数を持つモデルよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-28T10:05:58Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z) - On the Effect of Dropping Layers of Pre-trained Transformer Models [35.25025837133909]
我々は、事前訓練されたモデルにレイヤをドロップする戦略を探求し、下流のGLUEタスクに対するプルーニングの効果を観察する。
BERT、RoBERTa、XLNetのモデルを40%まで、元のパフォーマンスの98%を維持できたのです。
実験の結果,下層が下流のタスク性能を維持する上で最も重要であること,(ii)パラフレーズ検出や文類似性などのタスクは,レイヤの降下に対してより堅牢であること,(iii)異なる目的関数を用いてトレーニングされたモデルが異なる学習パターンを示し,レイヤが低下すること,などの興味深い観察結果が得られた。
論文 参考訳(メタデータ) (2020-04-08T07:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。