論文の概要: Dynamic Orchestration of Multi-Agent System for Real-World Multi-Image Agricultural VQA
- arxiv url: http://arxiv.org/abs/2509.24350v1
- Date: Mon, 29 Sep 2025 06:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.795871
- Title: Dynamic Orchestration of Multi-Agent System for Real-World Multi-Image Agricultural VQA
- Title(参考訳): 実世界のマルチイメージ農業VQAのためのマルチエージェントシステムの動的オーケストレーション
- Authors: Yan Ke, Xin Yu, Heming Du, Scott Chapman, Helen Huang,
- Abstract要約: 農業の視覚的質問応答は、農家や研究者に正確でタイムリーな知識を提供することに不可欠である。
本稿では,Retriever,Reflector,Answerer,Improverの4つの役割を統合した自己修正型自己改善型マルチエージェントフレームワークを提案する。
AgMMUベンチマーク実験により, マルチイメージ農業QAにおける競争性能が得られた。
- 参考スコア(独自算出の注目度): 14.881994273322627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agricultural visual question answering is essential for providing farmers and researchers with accurate and timely knowledge. However, many existing approaches are predominantly developed for evidence-constrained settings such as text-only queries or single-image cases. This design prevents them from coping with real-world agricultural scenarios that often require multi-image inputs with complementary views across spatial scales, and growth stages. Moreover, limited access to up-to-date external agricultural context makes these systems struggle to adapt when evidence is incomplete. In addition, rigid pipelines often lack systematic quality control. To address this gap, we propose a self-reflective and self-improving multi-agent framework that integrates four roles, the Retriever, the Reflector, the Answerer, and the Improver. They collaborate to enable context enrichment, reflective reasoning, answer drafting, and iterative improvement. A Retriever formulates queries and gathers external information, while a Reflector assesses adequacy and triggers sequential reformulation and renewed retrieval. Two Answerers draft candidate responses in parallel to reduce bias. The Improver refines them through iterative checks while ensuring that information from multiple images is effectively aligned and utilized. Experiments on the AgMMU benchmark show that our framework achieves competitive performance on multi-image agricultural QA.
- Abstract(参考訳): 農業の視覚的質問応答は、農家や研究者に正確でタイムリーな知識を提供することに不可欠である。
しかし、既存の多くのアプローチは、主にテキストのみのクエリやシングルイメージケースのようなエビデンスに制約された設定のために開発されている。
この設計は、空間スケールをまたいだ補完的なビューと成長段階を備えたマルチイメージインプットを必要とする、現実世界の農業シナリオに対処することができない。
さらに、最新の農業環境への限られたアクセスは、証拠が不完全である場合に適応するのに苦労する。
さらに、厳格なパイプラインは、しばしば体系的な品質管理を欠いている。
このギャップに対処するため、我々はRetriever, the Reflector, the Answerer, and the Improverという4つの役割を統合した自己修正型自己改善型マルチエージェントフレームワークを提案する。
彼らは、コンテキストの豊かさ、反射的推論、答のドラフト、反復的な改善を可能にするために協力します。
Retrieverはクエリを定式化し、外部情報を収集し、リフレクタは妥当性を評価し、シーケンシャルな再構成と再検索をトリガーする。
2人の解答者がバイアスを減らすために並列に候補応答をドラフトします。
Improverは、複数の画像からの情報が効果的に整列され利用されることを保証しながら、反復的なチェックを通じてそれらを洗練する。
AgMMUベンチマーク実験により, マルチイメージ農業QAにおける競争性能が得られた。
関連論文リスト
- SIRAG: Towards Stable and Interpretable RAG with A Process-Supervised Multi-Agent Framework [7.37561751991963]
本稿では,レシーバとジェネレータのギャップを埋めるプロセス管理型マルチエージェントフレームワークを提案する。
提案するフレームワークはモジュール式でプラグアンドプレイで、レトリバーやジェネレータを変更する必要はない。
論文 参考訳(メタデータ) (2025-09-17T09:09:28Z) - Enabling Collaborative Parametric Knowledge Calibration for Retrieval-Augmented Vision Question Answering [16.14877145354785]
KB-VQA (Vision Question Answering) システムは、外部知識ベースから取得した知識を用いて複雑な視覚的な質問に対処する。
協調的なパラメトリック知識キャリブレーションを用いた検索強化VQAフレームワークを提案する。
提案手法は,最先端モデルと競合する性能を実現し,精度が4.7%向上した。
論文 参考訳(メタデータ) (2025-04-05T05:42:12Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。