論文の概要: Evaluating Small Language Models for Agentic On-Farm Decision Support Systems
- arxiv url: http://arxiv.org/abs/2512.14043v1
- Date: Tue, 16 Dec 2025 03:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.564889
- Title: Evaluating Small Language Models for Agentic On-Farm Decision Support Systems
- Title(参考訳): エージェントオンファーム決定支援システムにおける小言語モデルの評価
- Authors: Enhong Liu, Haiyu Yang, Miel Hostens,
- Abstract要約: 大型言語モデル(LLM)は、乳製品学者や農家を支援する可能性を秘めている。
LLMに基づく意思決定支援ツールは、乳製品栽培には実用的ではない。
我々はHuggingFaceで利用可能な20のオープンソースSmall Language Modelsをファームリアリスティックコンピューティング制約下でベンチマークした。
- 参考スコア(独自算出の注目度): 0.38765515077000856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLM) hold potential to support dairy scholars and farmers by supporting decision-making and broadening access to knowledge for stakeholders with limited technical expertise. However, the substantial computational demand restricts access to LLM almost exclusively through cloud-based service, which makes LLM-based decision support tools impractical for dairy farming. To address this gap, lightweight alternatives capable of running locally on farm hardware are required. In this work, we benchmarked 20 open-source Small Language Models (SLM) available on HuggingFace under farm-realistic computing constraints. Building on our prior work, we developed an agentic AI system that integrates five task-specific agents: literature search, web search, SQL database interaction, NoSQL database interaction, and graph generation following predictive models. Evaluation was conducted in two phases. In the first phase, five test questions were used for the initial screening to identify models capable of following basic dairy-related instructions and performing reliably in a compute-constrained environment. Models that passed this preliminary stage were then evaluated using 30 questions (five per task category mentioned above, plus one category addressing integrity and misconduct) in phase two. In results, Qwen-4B achieved superior performance across most of task categories, although showed unstable effectiveness in NoSQL database interactions through PySpark. To our knowledge, this is the first work explicitly evaluating the feasibility of SLM as engines for dairy farming decision-making, with central emphases on privacy and computational efficiency. While results highlight the promise of SLM-assisted tools for practical deployment in dairy farming, challenges remain, and fine-tuning is still needed to refine SLM performance in dairy-specific questions.
- Abstract(参考訳): 大型言語モデル(LLM)は、意思決定を支援し、限られた技術的専門知識を持つステークホルダーの知識へのアクセスを拡大することで、乳製品学者や農家を支援する可能性を秘めている。
しかし、かなりの計算需要はLLMへのアクセスをほとんどクラウドベースのサービスで制限しているため、LLMベースの意思決定支援ツールは乳園農業では実用的ではない。
このギャップに対処するためには、ファームハードウェア上でローカルに実行できる軽量な代替手段が必要である。
本研究では,HuggingFace上で利用可能な20個のオープンソースのSmall Language Models (SLM) を,ファームリアリスティックな計算制約下でベンチマークした。
文献検索,Web検索,SQLデータベースインタラクション,NoSQLデータベースインタラクション,予測モデルに基づくグラフ生成という,5つのタスク固有エージェントを統合したエージェントAIシステムを開発した。
評価は2段階に分けて行われた。
第1フェーズでは、初回スクリーニングに5つのテスト質問を用いて、基礎的な乳製品関連命令に従うことができ、計算制約のある環境で確実に動作可能なモデルを同定した。
この予備段階を通過したモデルは、フェーズ2の30の質問(上記の5つのタスクカテゴリに加えて、整合性と不正行為に対処する1つのカテゴリ)を用いて評価された。
その結果、Qwen-4Bはタスクカテゴリの大部分で優れたパフォーマンスを実現したが、PySparkによるNoSQLデータベースのインタラクションでは不安定な有効性を示した。
我々の知る限り、これは、プライバシと計算効率を中心に、乳園農業意思決定のためのエンジンとしてのSLMの実現可能性を明確に評価する最初の研究である。
以上の結果から, 乳製品栽培における SLM 支援ツールの実用化が期待できるが, 依然として課題が残っており, 乳製品固有の問題において, SLM の性能改善には細調整が必要である。
関連論文リスト
- Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Efficient Multi-Agent Collaboration with Tool Use for Online Planning in Complex Table Question Answering [16.790216473975146]
複雑なテーブル質問応答(TQA)は、複数のステップや複数カテゴリの推論のような複雑な推論を必要とする質問に答えることを目的としている。
以前のアプローチでは、クローズドソースの大規模言語モデル(LLM)か、微調整のオープンウェイトLLMを利用することで、顕著な性能を示した。
クローズドソースモデルや微調整を必要としないフレームワークであるMulti-Agent Collaboration with Tool Use (MACT)を提案する。
論文 参考訳(メタデータ) (2024-12-28T13:13:33Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - On Evaluating the Integration of Reasoning and Action in LLM Agents with
Database Question Answering [25.57202500348071]
本研究では、大規模言語モデルがデータベースとどのように相互作用するかを評価するために設計された、新しい長文データベース質問応答データセットを提案する。
このタスクでは、LLMが戦略的に複数のクエリを生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを総合的な分析的な物語に合成する必要がある。
本稿では2つのインタラクション戦略を提案し評価し、インタラクション内の個々のステージを詳細に分析する。
論文 参考訳(メタデータ) (2023-11-16T09:55:07Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z) - Empower Large Language Model to Perform Better on Industrial
Domain-Specific Question Answering [36.31193273252256]
大規模言語モデル(LLM)は、オープンドメインタスクにおいて大きな成果を上げている。
しかし、実際の産業ドメイン固有のシナリオにおけるパフォーマンスは、特定のドメイン知識が欠如しているため平均的です。
私たちは、Microsoft製品と顧客が遭遇するIT技術的な問題を中心にした、MSQA(QA)データセットのベンチマークを提供します。
論文 参考訳(メタデータ) (2023-05-19T09:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。