論文の概要: A Multimodal Conversational Assistant for the Characterization of Agricultural Plots from Geospatial Open Data
- arxiv url: http://arxiv.org/abs/2509.17544v1
- Date: Mon, 22 Sep 2025 09:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.314027
- Title: A Multimodal Conversational Assistant for the Characterization of Agricultural Plots from Geospatial Open Data
- Title(参考訳): 地理空間的オープンデータを用いた多モーダル対話型農業プロット評価支援
- Authors: Juan Cañada, Raúl Alonso, Julio Molleda, Fidel Díez,
- Abstract要約: 本研究では,多モーダル検索と大規模言語モデル(LLM)を統合したオープンソースの対話型アシスタントを提案する。
提案したアーキテクチャは, 検索拡張生成(RAG)によるオクトロフォト, セチネル-2植生指標, およびユーザ提供文書を組み合わせたものである。
予備的な結果は、農業用クエリに対して明確で、関連性があり、コンテキスト対応の応答を生成することができることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing availability of open Earth Observation (EO) and agricultural datasets holds great potential for supporting sustainable land management. However, their high technical entry barrier limits accessibility for non-expert users. This study presents an open-source conversational assistant that integrates multimodal retrieval and large language models (LLMs) to enable natural language interaction with heterogeneous agricultural and geospatial data. The proposed architecture combines orthophotos, Sentinel-2 vegetation indices, and user-provided documents through retrieval-augmented generation (RAG), allowing the system to flexibly determine whether to rely on multimodal evidence, textual knowledge, or both in formulating an answer. To assess response quality, we adopt an LLM-as-a-judge methodology using Qwen3-32B in a zero-shot, unsupervised setting, applying direct scoring in a multi-dimensional quantitative evaluation framework. Preliminary results show that the system is capable of generating clear, relevant, and context-aware responses to agricultural queries, while remaining reproducible and scalable across geographic regions. The primary contributions of this work include an architecture for fusing multimodal EO and textual knowledge sources, a demonstration of lowering the barrier to access specialized agricultural information through natural language interaction, and an open and reproducible design.
- Abstract(参考訳): オープンアース・オブザーバ(EO)と農業データセットの利用可能化は、持続可能な土地管理を支援する大きな可能性を秘めている。
しかし、その高度な技術的参入障壁は、専門家でないユーザにとってアクセシビリティを制限している。
本研究では,マルチモーダル検索と大規模言語モデル(LLM)を統合し,異種農業・地理空間データとの自然言語インタラクションを実現するための,オープンソースの対話型アシスタントを提案する。
提案したアーキテクチャは、検索拡張生成(RAG)を通じて、オクトロフォト、Sentinel-2植生指標、およびユーザが提供する文書を組み合わせて、マルチモーダルなエビデンス、テキストの知識、あるいはその両方に依存するかどうかを柔軟に判断することができる。
応答の質を評価するため,Qwen3-32Bを用いたLCM-as-a-judge法をゼロショットで教師なしの設定に適用し,多次元定量的評価フレームワークで直接スコアリングを行う。
予備的な結果から,農業用クエリに対する明確で関連性があり,コンテキスト対応の応答を生成できる一方で,地理的に再現可能でスケーラブルな応答を維持可能であることが示唆された。
この研究の主な貢献は、マルチモーダルEOとテキスト知識ソースを融合させるアーキテクチャ、自然言語の相互作用を通じて特定の農業情報にアクセスするための障壁を低くするデモ、オープンで再現可能な設計である。
関連論文リスト
- AgriGPT: a Large Language Model Ecosystem for Agriculture [16.497060004913806]
AgriGPTは、農業利用のためのドメイン特化大規模言語モデルエコシステムである。
信頼性のあるデータソースを,高品質で標準化された質問応答データセットであるAgri-342Kにコンパイルする,スケーラブルなデータエンジンを設計する。
本稿では,高密度検索,スパース検索,マルチホップ知識グラフ推論を組み合わせた3チャンネル検索拡張フレームワークTri-RAGを用いる。
論文 参考訳(メタデータ) (2025-08-12T04:51:08Z) - Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain [1.0144032120138065]
本研究は,インドの農業特化資料から多言語(ヒンディー語,パンジャービ語)の合成データセットを生成する。
人為的データセットの評価は、事実性、関連性、農業コンセンサスにおいて著しく改善されている。
論文 参考訳(メタデータ) (2025-07-22T19:25:10Z) - Multimodal Agricultural Agent Architecture (MA3): A New Paradigm for Intelligent Agricultural Decision-Making [32.62816270192696]
現代の農業は生産効率を最適化し、持続可能な開発を達成するという2つの課題に直面している。
これらの課題に対処するために,本研究では,革新的なtextbfMultimodal textbfAgricultural textbfAgent textbfArchitecture (textbfMA3)を提案する。
本研究では、分類、検出、視覚質問応答(VQA)、ツール選択、エージェント評価の5つの主要なタスクを含むマルチモーダル農業エージェントデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-07T07:32:41Z) - A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis [5.006697347461899]
本稿では,農学研究の分野を開拓するための先駆的資源である作物病領域マルチモーダルデータセットについて紹介する。
このデータセットは、さまざまな作物の病気の画像13万7000枚と、幅広い農業知識にまたがる100万の質問と回答のペアで構成されている。
我々は,最先端のマルチモーダルモデルを微調整し,作物病診断の大幅な改善を示すことにより,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2025-03-10T06:37:42Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Chatmap : Large Language Model Interaction with Cartographic Data [0.0]
OpenStreetMap(OSM)は、都市部と農村部の詳細な地理データを提供する、最も野心的なオープンソースグローバルイニシアチブである。
本研究では,比較的小規模(1Bパラメータ)の大規模言語モデル(LLM)を,より有能な教師モデルによってキュレートされた比較的小さな人工データセットを用いて微調整するプロセスの概念と詳細を実証する。
この研究は、このような生成的人工知能(AI)適応のための最初のガイドラインを提供し、この文脈で有用な新興能力の早期の兆候を示すことを目的としている。
論文 参考訳(メタデータ) (2023-09-28T15:32:36Z) - RHO ($\rho$): Reducing Hallucination in Open-domain Dialogues with
Knowledge Grounding [57.46495388734495]
本稿では、知識グラフ(KG)からリンクされたエンティティと関係述語を表現したRHO(rho$)を提案する。
本稿では,(1)テキスト埋め込みと対応するKG埋め込みを組み合わせるための局所知識基盤,(2)注目機構を介してRHOにマルチホップ推論能力を持たせるためのグローバル知識基盤を提案する。
論文 参考訳(メタデータ) (2022-12-03T10:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。