論文の概要: AgriGPT-VL: Agricultural Vision-Language Understanding Suite
- arxiv url: http://arxiv.org/abs/2510.04002v2
- Date: Tue, 07 Oct 2025 13:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.476088
- Title: AgriGPT-VL: Agricultural Vision-Language Understanding Suite
- Title(参考訳): AgriGPT-VL:農業ビジョン・言語理解スイート
- Authors: Bo Yang, Yunkui Chen, Lanfei Feng, Yu Zhang, Xiao Xu, Jianyu Zhang, Nueraili Aierken, Runhe Huang, Hongjian Lin, Yibin Ying, Shijian Li,
- Abstract要約: AgriGPT-VL Suiteは、農業のための統一されたマルチモーダルフレームワークである。
我々は,農業における最大のビジョン言語コーパスであるAgri-3M-VLを紹介した。
次に,農業専門の視覚言語モデルであるAgriGPT-VLを開発した。
第3に,AgriBench-VL-4Kという,オープンエンドおよびイメージグラウンドの質問を伴うコンパクトで挑戦的な評価スイートを構築した。
- 参考スコア(独自算出の注目度): 12.521000582108888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid advances in multimodal large language models, agricultural applications remain constrained by the scarcity of domain-tailored models, curated vision-language corpora, and rigorous evaluation. To address these challenges, we present the AgriGPT-VL Suite, a unified multimodal framework for agriculture. Our contributions are threefold. First, we introduce Agri-3M-VL, the largest vision-language corpus for agriculture to our knowledge, curated by a scalable multi-agent data generator; it comprises 1M image-caption pairs, 2M image-grounded VQA pairs, 50K expert-level VQA instances, and 15K GRPO reinforcement learning samples. Second, we develop AgriGPT-VL, an agriculture-specialized vision-language model trained via a progressive curriculum of textual grounding, multimodal shallow/deep alignment, and GRPO refinement. This method achieves strong multimodal reasoning while preserving text-only capability. Third, we establish AgriBench-VL-4K, a compact yet challenging evaluation suite with open-ended and image-grounded questions, paired with multi-metric evaluation and an LLM-as-a-judge framework. Experiments show that AgriGPT-VL outperforms leading general-purpose VLMs on AgriBench-VL-4K, achieving higher pairwise win rates in the LLM-as-a-judge evaluation. Meanwhile, it remains competitive on the text-only AgriBench-13K with no noticeable degradation of language ability. Ablation studies further confirm consistent gains from our alignment and GRPO refinement stages. We will open source all of the resources to support reproducible research and deployment in low-resource agricultural settings.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの急速な進歩にもかかわらず、農業の応用はドメインに適したモデルの不足、視覚言語コーパスの整備、厳密な評価によって制約されている。
これらの課題に対処するため,農業用統合マルチモーダルフレームワークであるAgriGPT-VL Suiteを提案する。
私たちの貢献は3倍です。
まず、スケーラブルなマルチエージェントデータジェネレータによってキュレートされた農業用視覚言語コーパスであるAgri-3M-VLを紹介し、画像キャプチャペア1M、画像グラウンド付きVQAペア2M、エキスパートレベルのVQAインスタンス50K、強化学習サンプル15K GRPOを含む。
第2に,農業特化視覚言語モデルであるAgriGPT-VLを開発した。
本手法は,テキストのみの機能を維持しながら,強いマルチモーダル推論を実現する。
第3に,マルチメトリック評価とLLM-as-a-judgeフレームワークを併用した,オープンエンドおよびイメージグラウンドの質問によるコンパクトかつ困難な評価スイートであるAgriBench-VL-4Kを確立する。
実験の結果,AgriGPT-VLはAgriBench-VL-4K上での汎用VLMよりも優れており,LLM-as-a-judge評価において高い対の勝利率が得られることがわかった。
一方、テキストのみのAgriBench-13Kでは、言語能力の顕著な低下はない。
アブレーション研究により、アライメントおよびGRPO精製段階からの一貫した利得がさらに確認される。
低リソースの農業環境における再現可能な研究と展開を支援するため、すべてのリソースをオープンソースにします。
関連論文リスト
- AgriDoctor: A Multimodal Intelligent Assistant for Agriculture [45.77373971125537]
AgriDoctorは、インテリジェントな作物病診断と農業知識の相互作用のために設計されたモジュラーでマルチモーダルなフレームワークである。
効果的なトレーニングと評価を容易にするために,400000の注釈付き疾患画像,831のエキスパートによる知識エントリ,30000のバイリンガルプロンプトによるインテント駆動ツール選択のベンチマークであるAgriMMを構築した。
実験により、AgriMMで訓練されたAgriDoctorは、細粒度の農業作業において最先端のLVLMを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T11:51:57Z) - AgriGPT: a Large Language Model Ecosystem for Agriculture [16.497060004913806]
AgriGPTは、農業利用のためのドメイン特化大規模言語モデルエコシステムである。
信頼性のあるデータソースを,高品質で標準化された質問応答データセットであるAgri-342Kにコンパイルする,スケーラブルなデータエンジンを設計する。
本稿では,高密度検索,スパース検索,マルチホップ知識グラフ推論を組み合わせた3チャンネル検索拡張フレームワークTri-RAGを用いる。
論文 参考訳(メタデータ) (2025-08-12T04:51:08Z) - AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models [19.265932725554833]
本稿では,中国初の総合農業ベンチマークであるAgriEvalを提案する。
AgriEvalは6つの主要な農業カテゴリーと29の農業部門をカバーし、4つの中核的な認知シナリオに対処している。
AgriEvalは14,697の質問と2,167のオープンエンドの質問と回答からなる。
論文 参考訳(メタデータ) (2025-07-29T12:58:27Z) - AgroBench: Vision-Language Model Benchmark in Agriculture [25.52955831089068]
AgroBenchは、視覚言語モデル(VLM)を7つの農業トピックにわたって評価するためのベンチマークである。
私たちのAgroBenchは、203の作物カテゴリと682の病気カテゴリを含む最先端のカテゴリをカバーし、VLM能力を徹底的に評価しています。
論文 参考訳(メタデータ) (2025-07-28T04:58:29Z) - Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain [1.0144032120138065]
本研究は,インドの農業特化資料から多言語(ヒンディー語,パンジャービ語)の合成データセットを生成する。
人為的データセットの評価は、事実性、関連性、農業コンセンサスにおいて著しく改善されている。
論文 参考訳(メタデータ) (2025-07-22T19:25:10Z) - Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases [49.782064512495495]
農業分野における最初のマルチモーダル・インストラクション・フォロー・データセットを構築した。
このデータセットは、約40万のデータエントリを持つ221種類以上の害虫と病気をカバーしている。
本稿では,農業用マルチモーダル対話システムであるAgri-LLaVAを開発するための知識注入型学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T04:34:23Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。