論文の概要: AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2407.19617v1
- Date: Mon, 29 Jul 2024 00:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-30 15:35:33.605139
- Title: AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs
- Title(参考訳): AgEval: マルチモーダルLCMを用いたゼロショットプラントストレス評価ベンチマーク
- Authors: Muhammad Arbab Arshad, Talukder Zaki Jubery, Tirtho Roy, Rim Nassiri, Asheesh K. Singh, Arti Singh, Chinmay Hegde, Baskar Ganapathysubramanian, Aditya Balu, Adarsh Krishnamurthy, Soumik Sarkar,
- Abstract要約: AgEvalは12種類の植物ストレス表現タスクからなるベンチマークである。
本研究は、最先端モデルのゼロショットおよび少数ショットのインコンテキスト学習性能を評価する。
- 参考スコア(独自算出の注目度): 19.7240633020344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Plant stress phenotyping traditionally relies on expert assessments and specialized models, limiting scalability in agriculture. Recent advances in multimodal large language models (LLMs) offer potential solutions to this challenge. We present AgEval, a benchmark comprising 12 diverse plant stress phenotyping tasks, to evaluate these models' capabilities. Our study assesses zero-shot and few-shot in-context learning performance of state-of-the-art models, including Claude, GPT, Gemini, and LLaVA. Results show significant performance improvements with few-shot learning, with F1 scores increasing from 46.24% to 73.37% in 8-shot identification for the best-performing model. Few-shot examples from other classes in the dataset have negligible or negative impacts, although having the exact category example helps to increase performance by 15.38%. We also quantify the consistency of model performance across different classes within each task, finding that the coefficient of variance (CV) ranges from 26.02% to 58.03% across models, implying that subject matter expertise is needed - of 'difficult' classes - to achieve reliability in performance. AgEval establishes baseline metrics for multimodal LLMs in agricultural applications, offering insights into their promise for enhancing plant stress phenotyping at scale. Benchmark and code can be accessed at: https://anonymous.4open.science/r/AgEval/
- Abstract(参考訳): 植物ストレスの表現型付けは伝統的に専門家の評価と専門モデルに依存しており、農業のスケーラビリティを制限している。
マルチモーダル大規模言語モデル(LLM)の最近の進歩は、この問題に対する潜在的な解決策を提供する。
本稿では,12種類の植物ストレス表現タスクからなるベンチマークであるAgEvalについて,これらのモデルの性能評価を行う。
本研究は,Claude,GPT,Gemini,LLaVAを含む最先端モデルのゼロショットおよび少数ショットのインコンテキスト学習性能を評価する。
F1スコアは46.24%から73.37%に向上した。
データセット内の他のクラスからのショット例は無視または否定的な影響があるが、正確なカテゴリ例を持つことでパフォーマンスが15.38%向上する。
また、各タスク内の異なるクラス間でのモデル性能の一貫性を定量化し、分散係数(CV)がモデル間で26.02%から58.03%の範囲であり、性能の信頼性を達成するためには「難易度」クラスにおいて主題の専門知識が必要であることを示唆する。
AgEvalは、農業応用におけるマルチモーダルLLMの基準指標を確立し、大規模に植物ストレスの表現力を高めるという彼らの約束に関する洞察を提供する。
ベンチマークとコードは、https://anonymous.4open.science/r/AgEval/でアクセスできます。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - VLLFL: A Vision-Language Model Based Lightweight Federated Learning Framework for Smart Agriculture [12.468660942565792]
視覚言語モデルに基づく軽量フェデレーション学習フレームワークVLLFLを提案する。
ビジョン言語モデル(VLM)の一般化とコンテキスト認識検出機能を活用し、フェデレーション学習のプライバシー保護性を活用する。
VLLFLはVLMの性能を14.53%改善し、通信オーバーヘッドを99.3%削減した。
論文 参考訳(メタデータ) (2025-04-17T22:14:31Z) - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。
LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。
LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T10:21:57Z) - Unraveling the Capabilities of Language Models in News Summarization [0.0]
この研究は、ニュース要約タスクのより小さなものに焦点を当てた、最新の20の言語モデルの包括的なベンチマークを提供する。
本研究では,ゼロショットと少数ショットの学習設定に着目し,ロバストな評価手法を適用した。
GPT-3.5-Turbo と GPT-4 の優れた性能を強調した。
論文 参考訳(メタデータ) (2025-01-30T04:20:16Z) - Edge-AI for Agriculture: Lightweight Vision Models for Disease Detection in Resource-Limited Settings [0.0]
提案システムは,エッジデバイスへの展開に最適化された高度なオブジェクト検出,分類,セグメンテーションモデルを統合する。
本研究は, 精度, 計算効率, 一般化能力に着目し, 各種最先端モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-23T06:48:50Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems [16.49637074299509]
我々は、視覚に基づく輸送工学タスクのための最先端のビジョン言語モデル(VLM)について検討した。
画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。
我々はこれらのVLMモデルの性能を評価するために、CLIP、BLIP、OWL-ViT、Llava-Next、およびクローズソースGPT-4oといったオープンソースモデルを適用した。
論文 参考訳(メタデータ) (2024-09-03T20:24:37Z) - Enhanced Infield Agriculture with Interpretable Machine Learning Approaches for Crop Classification [0.49110747024865004]
本研究では、SIFT、ORB、Color Histogramなどの手作り特徴抽出手法を用いた従来のML、カスタムデザインCNN、AlexNetのようなDLアーキテクチャの確立、ImageNetを用いて事前訓練された5つのモデルの移行学習の4つの異なる分類手法を評価する。
Xceptionはこれら全てを一般化し、80.03MBのモデルサイズと0.0633秒の予測時間で98%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-22T14:20:34Z) - Automated Classification of Dry Bean Varieties Using XGBoost and SVM Models [0.0]
本稿では,機械学習モデルを用いた7種類の乾燥豆の自動分類について比較検討する。
XGBoostとSVMのモデルはそれぞれ94.00%と94.39%の正確な分類率を達成した。
本研究は, 種子品質制御と収量最適化を効果的に支援できることを実証し, 精密農業への取り組みの活発化に寄与する。
論文 参考訳(メタデータ) (2024-08-02T13:05:33Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Low-Rank Few-Shot Adaptation of Vision-Language Models [13.803180972839213]
視覚言語モデル(VLM)の少数ショット学習においてローランド適応(LoRA)を導入する。
驚くべきことに、我々の単純なCLIP-LoRA法は、トレーニング時間を短縮しつつ、大幅に改善されている。
本研究の結果は,アクセシブルラーニングとアダプタベースの研究の可能性を否定するものではない。
論文 参考訳(メタデータ) (2024-05-28T19:16:59Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Fair Few-shot Learning with Auxiliary Sets [53.30014767684218]
多くの機械学習(ML)タスクでは、ラベル付きデータサンプルしか収集できないため、フェアネスのパフォーマンスが低下する可能性がある。
本稿では,限定的なトレーニングサンプルを用いたフェアネス認識学習課題をemphfair few-shot Learning問題として定義する。
そこで我々は,学習した知識をメタテストタスクに一般化し,様々なメタトレーニングタスクに公平な知識を蓄積する新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2023-08-28T06:31:37Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Distance Metric Learning Loss Functions in Few-Shot Scenarios of
Supervised Language Models Fine-Tuning [1.0323063834827415]
DML損失関数は、数ショットのシナリオで、RoBERTa-largeモデルの下流分類タスクのパフォーマンスを向上させることができる。
ソフトトリプル損失を用いて微調整したモデルでは、標準のカテゴリーのクロスエントロピー損失関数を持つモデルよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-28T10:05:58Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。