論文の概要: A Multimodal Conversational Assistant for the Characterization of Agricultural Plots from Geospatial Open Data
- arxiv url: http://arxiv.org/abs/2509.17544v2
- Date: Tue, 23 Sep 2025 14:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 16:16:25.816404
- Title: A Multimodal Conversational Assistant for the Characterization of Agricultural Plots from Geospatial Open Data
- Title(参考訳): 地理空間的オープンデータを用いた多モーダル対話型農業プロット評価支援
- Authors: Juan Cañada, Raúl Alonso, Julio Molleda, Fidel Díez,
- Abstract要約: 本研究では,多モーダル検索と大規模言語モデル(LLM)を統合したオープンソースの対話型アシスタントを提案する。
提案したアーキテクチャは, 検索拡張生成(RAG)によるオクトロフォト, セチネル-2植生指標, およびユーザ提供文書を組み合わせたものである。
予備的な結果は、農業用クエリに対して明確で、関連性があり、コンテキスト対応の応答を生成することができることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing availability of open Earth Observation (EO) and agricultural datasets holds great potential for supporting sustainable land management. However, their high technical entry barrier limits accessibility for non-expert users. This study presents an open-source conversational assistant that integrates multimodal retrieval and large language models (LLMs) to enable natural language interaction with heterogeneous agricultural and geospatial data. The proposed architecture combines orthophotos, Sentinel-2 vegetation indices, and user-provided documents through retrieval-augmented generation (RAG), allowing the system to flexibly determine whether to rely on multimodal evidence, textual knowledge, or both in formulating an answer. To assess response quality, we adopt an LLM-as-a-judge methodology using Qwen3-32B in a zero-shot, unsupervised setting, applying direct scoring in a multi-dimensional quantitative evaluation framework. Preliminary results show that the system is capable of generating clear, relevant, and context-aware responses to agricultural queries, while remaining reproducible and scalable across geographic regions. The primary contributions of this work include an architecture for fusing multimodal EO and textual knowledge sources, a demonstration of lowering the barrier to access specialized agricultural information through natural language interaction, and an open and reproducible design.
- Abstract(参考訳): オープンアース・オブザーバ(EO)と農業データセットの利用可能化は、持続可能な土地管理を支援する大きな可能性を秘めている。
しかし、その高度な技術的参入障壁は、専門家でないユーザにとってアクセシビリティを制限している。
本研究では,マルチモーダル検索と大規模言語モデル(LLM)を統合し,異種農業・地理空間データとの自然言語インタラクションを実現するための,オープンソースの対話型アシスタントを提案する。
提案したアーキテクチャは、検索拡張生成(RAG)を通じて、オクトロフォト、Sentinel-2植生指標、およびユーザが提供する文書を組み合わせて、マルチモーダルなエビデンス、テキストの知識、あるいはその両方に依存するかどうかを柔軟に判断することができる。
応答の質を評価するため,Qwen3-32Bを用いたLCM-as-a-judge法をゼロショットで教師なしの設定に適用し,多次元定量的評価フレームワークで直接スコアリングを行う。
予備的な結果から,農業用クエリに対する明確で関連性があり,コンテキスト対応の応答を生成できる一方で,地理的に再現可能でスケーラブルな応答を維持可能であることが示唆された。
この研究の主な貢献は、マルチモーダルEOとテキスト知識ソースを融合させるアーキテクチャ、自然言語の相互作用を通じて特定の農業情報にアクセスするための障壁を低くするデモ、オープンで再現可能な設計である。
関連論文リスト
- AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents [17.904008870689964]
我々は,Pythonの実行環境であるAgriWorldを紹介し,フィールドパーセル上のクエリ,リモートセンシング時系列分析,作物の成長シミュレーション,タスク固有の予測器(収量,ストレス,病気リスクなど)について,統一的なツールを公開している。
この環境上では,複数ターンのAgroReflectiveエージェントを設計し,コードを反復的に書き,実行結果を観察し,実行-観測-再定義ループを通じて解析を洗練する。
論文 参考訳(メタデータ) (2026-02-17T03:12:57Z) - Towards AI Evaluation in Domain-Specific RAG Systems: The AgriHubi Case Study [0.7257685311746803]
AgriHubiは、フィンランド語による農業意思決定支援のためのドメイン適応型検索拡張生成システムである。
このシステムは、答えの完全性、言語的正確性、そして認識された信頼性において明らかな向上を示す。
論文 参考訳(メタデータ) (2026-02-02T15:15:24Z) - MiRAGE: A Multiagent Framework for Generating Multimodal Multihop Question-Answer Dataset for RAG Evaluation [0.3499870393443268]
既存のデータセットは一般的なドメインコーパスや純粋にテキスト検索に依存していることが多い。
RAGシステム評価のためのMultiagentフレームワークであるMiRAGEを紹介する。
MiRAGEは、検証済み、ドメイン固有、マルチモーダル、マルチホップ質問応答データセットを生成するために、専門エージェントの群を編成する。
論文 参考訳(メタデータ) (2026-01-21T21:39:09Z) - Seeing Through the MiRAGE: Evaluating Multimodal Retrieval Augmented Generation [75.66731090275645]
マルチモーダルソースからの検索拡張生成(RAG)評価フレームワークであるMiRAGEを紹介する。
MiRAGEは、InfoF1とCiteF1で構成されるマルチモーダルRAG評価のためのクレーム中心のアプローチである。
論文 参考訳(メタデータ) (2025-10-28T18:21:19Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Optimizing Agricultural Research: A RAG-Based Approach to Mycorrhizal Fungi Information [1.2349443032034277]
Retrieval-Augmented Generation (RAG)は自然言語処理における変換的アプローチである。
マイコフィトに適したRAG対応システムの設計と評価について述べる。
このフレームワークは、持続可能な農業システムにおける農業革新を加速し、意思決定を強化するために、AIによる知識発見の可能性を強調している。
論文 参考訳(メタデータ) (2025-09-16T20:21:55Z) - AgriGPT: a Large Language Model Ecosystem for Agriculture [16.497060004913806]
AgriGPTは、農業利用のためのドメイン特化大規模言語モデルエコシステムである。
信頼性のあるデータソースを,高品質で標準化された質問応答データセットであるAgri-342Kにコンパイルする,スケーラブルなデータエンジンを設計する。
本稿では,高密度検索,スパース検索,マルチホップ知識グラフ推論を組み合わせた3チャンネル検索拡張フレームワークTri-RAGを用いる。
論文 参考訳(メタデータ) (2025-08-12T04:51:08Z) - Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain [1.0144032120138065]
本研究は,インドの農業特化資料から多言語(ヒンディー語,パンジャービ語)の合成データセットを生成する。
人為的データセットの評価は、事実性、関連性、農業コンセンサスにおいて著しく改善されている。
論文 参考訳(メタデータ) (2025-07-22T19:25:10Z) - Multimodal Agricultural Agent Architecture (MA3): A New Paradigm for Intelligent Agricultural Decision-Making [32.62816270192696]
現代の農業は生産効率を最適化し、持続可能な開発を達成するという2つの課題に直面している。
これらの課題に対処するために,本研究では,革新的なtextbfMultimodal textbfAgricultural textbfAgent textbfArchitecture (textbfMA3)を提案する。
本研究では、分類、検出、視覚質問応答(VQA)、ツール選択、エージェント評価の5つの主要なタスクを含むマルチモーダル農業エージェントデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-07T07:32:41Z) - A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis [5.006697347461899]
本稿では,農学研究の分野を開拓するための先駆的資源である作物病領域マルチモーダルデータセットについて紹介する。
このデータセットは、さまざまな作物の病気の画像13万7000枚と、幅広い農業知識にまたがる100万の質問と回答のペアで構成されている。
我々は,最先端のマルチモーダルモデルを微調整し,作物病診断の大幅な改善を示すことにより,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2025-03-10T06:37:42Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Chatmap : Large Language Model Interaction with Cartographic Data [0.0]
OpenStreetMap(OSM)は、都市部と農村部の詳細な地理データを提供する、最も野心的なオープンソースグローバルイニシアチブである。
本研究では,比較的小規模(1Bパラメータ)の大規模言語モデル(LLM)を,より有能な教師モデルによってキュレートされた比較的小さな人工データセットを用いて微調整するプロセスの概念と詳細を実証する。
この研究は、このような生成的人工知能(AI)適応のための最初のガイドラインを提供し、この文脈で有用な新興能力の早期の兆候を示すことを目的としている。
論文 参考訳(メタデータ) (2023-09-28T15:32:36Z) - RHO ($\rho$): Reducing Hallucination in Open-domain Dialogues with
Knowledge Grounding [57.46495388734495]
本稿では、知識グラフ(KG)からリンクされたエンティティと関係述語を表現したRHO(rho$)を提案する。
本稿では,(1)テキスト埋め込みと対応するKG埋め込みを組み合わせるための局所知識基盤,(2)注目機構を介してRHOにマルチホップ推論能力を持たせるためのグローバル知識基盤を提案する。
論文 参考訳(メタデータ) (2022-12-03T10:36:34Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。