論文の概要: Towards Large Reasoning Models for Agriculture
- arxiv url: http://arxiv.org/abs/2505.19259v2
- Date: Wed, 28 May 2025 02:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.741436
- Title: Towards Large Reasoning Models for Agriculture
- Title(参考訳): 大規模農業共生モデルに向けて
- Authors: Hossein Zaremehrjerdi, Shreyan Ganguly, Ashlyn Rairdin, Elizabeth Tranel, Benjamin Feuer, Juan Ignacio Di Salvo, Srikanth Panthulugiri, Hernan Torres Pacin, Victoria Moser, Sarah Jones, Joscif G Raigne, Yanben Shen, Heidi M. Dornath, Aditya Balu, Adarsh Krishnamurthy, Asheesh K Singh, Arti Singh, Baskar Ganapathysubramanian, Chinmay Hegde, Soumik Sarkar,
- Abstract要約: 農業の意思決定は、複雑な、文脈固有の推論を伴う。
私たちはAgReasonを紹介します。AgReasonは、農業推論のための100の質問で、最初の専門家によるオープンソースの科学ベンチマークです。
また、人間の監視によって生成された44.6K問合せ対の大規模データセットであるAgThoughtsも紹介する。
- 参考スコア(独自算出の注目度): 17.55987054582926
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Agricultural decision-making involves complex, context-specific reasoning, where choices about crops, practices, and interventions depend heavily on geographic, climatic, and economic conditions. Traditional large language models (LLMs) often fall short in navigating this nuanced problem due to limited reasoning capacity. We hypothesize that recent advances in large reasoning models (LRMs) can better handle such structured, domain-specific inference. To investigate this, we introduce AgReason, the first expert-curated open-ended science benchmark with 100 questions for agricultural reasoning. Evaluations across thirteen open-source and proprietary models reveal that LRMs outperform conventional ones, though notable challenges persist, with the strongest Gemini-based baseline achieving 36% accuracy. We also present AgThoughts, a large-scale dataset of 44.6K question-answer pairs generated with human oversight and equipped with synthetically generated reasoning traces. Using AgThoughts, we develop AgThinker, a suite of small reasoning models that can be run on consumer-grade GPUs, and show that our dataset can be effective in unlocking agricultural reasoning abilities in LLMs. Our project page is here: https://baskargroup.github.io/Ag_reasoning/
- Abstract(参考訳): 農業の意思決定は複雑な文脈固有の推論であり、作物、慣行、介入の選択は地理的、気候的、経済的な条件に大きく依存する。
従来の大規模言語モデル(LLM)は、推論能力に制限があるため、このニュアンスな問題をナビゲートするのに不足することが多い。
大規模推論モデル(LRM)の最近の進歩は、そのような構造化されたドメイン固有推論をよりうまく処理できるという仮説を立てる。
これを調べるために、農業推論のための100の質問を含む、最初の専門家によるオープンエンド科学ベンチマークであるAgReasonを紹介した。
13のオープンソースおよびプロプライエタリなモデルに対する評価によると、LEMは従来のモデルよりも優れているが、注目すべき課題は続き、最強のGeminiベースのベースラインは36%の精度で達成されている。
また、AgThoughtsは、人間の監視によって生成された44.6Kの質問応答対の大規模データセットであり、合成的に生成された推論トレースを備えている。
AgThinkerは、コンシューマグレードのGPU上で実行できる小さな推論モデルのスイートで、私たちのデータセットがLLMの農業推論能力のアンロックに有効であることを示す。
プロジェクトページはこちら。 https://baskargroup.github.io/Ag_reasoning/
関連論文リスト
- Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind [16.96145027280737]
我々は農業リモートセンシング(RS)のベンチマークであるAgroMindを紹介する。
AgroMindは、空間知覚、オブジェクト理解、シーン理解、シーン推論の4つのタスクディメンションをカバーしている。
AgroMind上で18のオープンソースLMMと3つのクローズドソースモデルを評価する。
論文 参考訳(メタデータ) (2025-05-18T02:45:19Z) - ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.27754404942364]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。
本稿では, LRMにおける過度な考察を紹介し, 分析する。
解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (2025-02-12T09:23:26Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies [19.613777134600408]
アナロジー思考は、人間が創造的な方法で問題を解決することを可能にする。
言語モデル(LM)も同じことができますか?
ベンチマークアプローチは、人間に共通するこの能力の側面に焦点を当てます。
論文 参考訳(メタデータ) (2024-02-19T18:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。