論文の概要: AgriGPT-Omni: A Unified Speech-Vision-Text Framework for Multilingual Agricultural Intelligence
- arxiv url: http://arxiv.org/abs/2512.10624v1
- Date: Thu, 11 Dec 2025 13:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.373612
- Title: AgriGPT-Omni: A Unified Speech-Vision-Text Framework for Multilingual Agricultural Intelligence
- Title(参考訳): AgriGPT-Omni:多言語農業インテリジェンスのための統一音声ビジョンテキストフレームワーク
- Authors: Bo Yang, Lanfei Feng, Yunkui Chen, Yu Zhang, Jianyu Zhang, Xiao Xu, Nueraili Aierken, Shijian Li,
- Abstract要約: AgriGPT-Omniは、音声、視覚、テキストを統一されたフレームワークに統合する農業用オムニフレームワークである。
農業用テキストやイメージをトレーニングデータに変換する,スケーラブルなデータ合成・収集パイプラインを構築した。
本研究は,テキスト・ナレッジ・インジェクション,プログレッシブ・マルチモーダルアライメント,GRPOに基づく強化学習という3段階のパラダイムを用いて,最初の農業用オムニモデルを訓練する。
- 参考スコア(独自算出の注目度): 13.233457989297358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid advances in multimodal large language models, agricultural applications remain constrained by the lack of multilingual speech data, unified multimodal architectures, and comprehensive evaluation benchmarks. To address these challenges, we present AgriGPT-Omni, an agricultural omni-framework that integrates speech, vision, and text in a unified framework. First, we construct a scalable data synthesis and collection pipeline that converts agricultural texts and images into training data, resulting in the largest agricultural speech dataset to date, including 492K synthetic and 1.4K real speech samples across six languages. Second, based on this, we train the first agricultural omni-model via a three-stage paradigm: textual knowledge injection, progressive multimodal alignment, and GRPO-based reinforcement learning, enabling unified reasoning across languages and modalities. Third, we propose AgriBench-Omni-2K, the first tri-modal benchmark for agriculture, covering diverse speech-vision-text tasks and multilingual slices, with standardized protocols and reproducible tools. Experiments show that AgriGPT-Omni significantly outperforms general-purpose baselines on multilingual and multimodal reasoning as well as real-world speech understanding. All models, data, benchmarks, and code will be released to promote reproducible research, inclusive agricultural intelligence, and sustainable AI development for low-resource regions.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの急速な進歩にもかかわらず、農業応用は多言語音声データ、統合マルチモーダルアーキテクチャ、総合評価ベンチマークの欠如によって制約を受け続けている。
これらの課題に対処するため、我々は、言語、ビジョン、テキストを統一されたフレームワークに統合する農業用オムニフレームワークであるAgriGPT-Omniを提示する。
まず、農業用テキストや画像からトレーニングデータに変換するスケーラブルなデータ合成・収集パイプラインを構築し、その結果、6言語にわたる492K合成および1.4K実音声サンプルを含む、これまでで最大の農業用音声データセットが得られた。
第2に,本研究では,テキスト知識注入,プログレッシブ・マルチモーダルアライメント,GRPOに基づく強化学習という3段階のパラダイムを用いて,最初の農業用オムニモデルを訓練し,言語とモダリティの統一的推論を可能にした。
第3に,農業における最初のトリモーダルベンチマークであるAgriBench-Omni-2Kを提案する。
実験の結果,AgriGPT-Omniは多言語・多モーダル推論や実世界の音声理解において,汎用的ベースラインを著しく上回ることがわかった。
すべてのモデル、データ、ベンチマーク、コードは、再現可能な研究、包括的農業インテリジェンス、低リソース領域向けの持続可能なAI開発を促進するためにリリースされます。
関連論文リスト
- AgriGPT-VL: Agricultural Vision-Language Understanding Suite [12.521000582108888]
AgriGPT-VL Suiteは、農業のための統一されたマルチモーダルフレームワークである。
我々は,農業における最大のビジョン言語コーパスであるAgri-3M-VLを紹介した。
次に,農業専門の視覚言語モデルであるAgriGPT-VLを開発した。
第3に,AgriBench-VL-4Kという,オープンエンドおよびイメージグラウンドの質問を伴うコンパクトで挑戦的な評価スイートを構築した。
論文 参考訳(メタデータ) (2025-10-05T02:30:11Z) - AgriDoctor: A Multimodal Intelligent Assistant for Agriculture [45.77373971125537]
AgriDoctorは、インテリジェントな作物病診断と農業知識の相互作用のために設計されたモジュラーでマルチモーダルなフレームワークである。
効果的なトレーニングと評価を容易にするために,400000の注釈付き疾患画像,831のエキスパートによる知識エントリ,30000のバイリンガルプロンプトによるインテント駆動ツール選択のベンチマークであるAgriMMを構築した。
実験により、AgriMMで訓練されたAgriDoctorは、細粒度の農業作業において最先端のLVLMを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T11:51:57Z) - AgriGPT: a Large Language Model Ecosystem for Agriculture [16.497060004913806]
AgriGPTは、農業利用のためのドメイン特化大規模言語モデルエコシステムである。
信頼性のあるデータソースを,高品質で標準化された質問応答データセットであるAgri-342Kにコンパイルする,スケーラブルなデータエンジンを設計する。
本稿では,高密度検索,スパース検索,マルチホップ知識グラフ推論を組み合わせた3チャンネル検索拡張フレームワークTri-RAGを用いる。
論文 参考訳(メタデータ) (2025-08-12T04:51:08Z) - Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain [1.0144032120138065]
本研究は,インドの農業特化資料から多言語(ヒンディー語,パンジャービ語)の合成データセットを生成する。
人為的データセットの評価は、事実性、関連性、農業コンセンサスにおいて著しく改善されている。
論文 参考訳(メタデータ) (2025-07-22T19:25:10Z) - Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition [57.131546757903834]
Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。
Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
論文 参考訳(メタデータ) (2024-12-12T17:50:39Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。