論文の概要: Evaluating Digital Inclusiveness of Digital Agri-Food Tools Using Large Language Models: A Comparative Analysis Between Human and AI-Based Evaluations
- arxiv url: http://arxiv.org/abs/2604.03252v1
- Date: Wed, 11 Mar 2026 06:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.552245
- Title: Evaluating Digital Inclusiveness of Digital Agri-Food Tools Using Large Language Models: A Comparative Analysis Between Human and AI-Based Evaluations
- Title(参考訳): 大規模言語モデルを用いたデジタルアグリフードツールのデジタル包摂性評価:人間とAIによる評価の比較分析
- Authors: Githma Pewinya, Carolina Martins, Garcia Mariangel,
- Abstract要約: デジタル包摂性はアグリフードシステム、特にグローバル・サウスにおいて重要な優先事項である。
現在の評価プロセスはリソース集約的であり、完成には数ヶ月を要することが多い。
本研究は,大規模言語モデル(LLM)が,デジタル包摂性の迅速かつAI可能な評価を支援することができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring digital inclusiveness is a critical priority in agri-food systems, particularly in the Global South, where digital divides persist. The Multidimensional Digital Inclusiveness Index (MDII) offers a comprehensive, human-led framework to assess how inclusive digital agricultural tools (agritools) are. However, the current evaluation process is resource intensive, often requiring months to complete. This study explores whether large language models (LLMs) can support a rapid, AI-enabled assessment of digital inclusiveness, complementing the MDII's existing workflow. Using a comparative analysis, the research benchmarks the performance of four LLMs (Grok, Gemini, GPT-4o, and GPT-5) against prior expert-led evaluations. The study investigates model alignment with human scores, sensitivity to temperature settings, and potential sources of bias. Findings suggest that LLMs can generate evaluative outputs that approximate expert judgment in some dimensions, though reliability varies across models and contexts. This exploratory work provides early evidence for the integration of GenAI into inclusive digital development monitoring, with implications for scaling evaluations in time-sensitive or resource-constrained environments.
- Abstract(参考訳): デジタル包摂性の確保は、アグリフードシステム、特にデジタルディバイジョンが持続するグローバル・サウスにおいて重要な優先事項である。
MDII(Multidimensional Digital Inclusiveness Index)は、包括的デジタル農業ツール(アグリトール)がどのように評価されているかを評価する包括的な人間主導のフレームワークを提供する。
しかし、現在の評価プロセスはリソース集約的であり、完成には数ヶ月を要することが多い。
本研究は,大規模言語モデル(LLM)が,MDIIの既存のワークフローを補完する,迅速なAIによるディジタル包摂性評価を支援することができるかどうかを考察する。
比較分析を用いて、従来の専門家主導の評価に対して、4つのLCM(Grok, Gemini, GPT-4o, GPT-5)の性能をベンチマークした。
この研究では、人間のスコアとのモデルアライメント、温度設定に対する感受性、潜在的なバイアス源について検討した。
LLMはある程度の次元で専門家の判断を近似する評価出力を生成できるが、信頼性はモデルや文脈によって異なる。
この探索的な研究は、GenAIをインクルーシブなデジタル開発監視に統合する初期の証拠であり、時間に敏感な環境やリソースに制約のある環境での評価をスケールすることに役立つ。
関連論文リスト
- VLAgeBench: Benchmarking Large Vision-Language Models for Zero-Shot Human Age Estimation [0.19573380763700718]
本研究では,顔年齢推定のための大規模視覚言語モデル(LVLM)の総合的ゼロショット評価を提案する。
汎用LVLMはゼロショット設定で競合性能を提供できることを示す。
この研究は、LVLMを、法医学、医療監視、人間とコンピュータの相互作用における現実の応用のための有望なツールとして位置づけている。
論文 参考訳(メタデータ) (2026-03-27T02:16:22Z) - Assessment Design in the AI Era: A Method for Identifying Items Functioning Differentially for Humans and Chatbots [0.0]
教育における大規模言語モデル(LLM)の急速な採用は、アセスメント設計に重大な課題をもたらす。
我々は,人間とLLMが体系的な応答差を示す項目を特定するために,統計的に原則化されたアプローチを導入する。
この方法は、差分アイテム機能解析(DIF)に基づく。
論文 参考訳(メタデータ) (2026-03-24T19:39:39Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification [41.53026834367054]
本稿では,マルチモーダル数学推論のための新しいベンチマークMM-MATHを提案する。
MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。
最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。
論文 参考訳(メタデータ) (2024-04-07T22:16:50Z) - Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries [0.024105148723769353]
我々は、精神状態検査から簡潔な要約を生成するために、いくつかの最先端の大規模言語モデル(LLM)を評価した。
確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。
我々の最高性能の微調整モデルは既存のモデルより優れており、ROUGE-1とROUGE-Lはそれぞれ0.810と0.764である。
論文 参考訳(メタデータ) (2024-03-29T12:25:37Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。