論文の概要: MIRAGE: A Benchmark for Multimodal Information-Seeking and Reasoning in Agricultural Expert-Guided Conversations
- arxiv url: http://arxiv.org/abs/2506.20100v1
- Date: Wed, 25 Jun 2025 03:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.589199
- Title: MIRAGE: A Benchmark for Multimodal Information-Seeking and Reasoning in Agricultural Expert-Guided Conversations
- Title(参考訳): MIRAGE: 農業専門家による対話におけるマルチモーダル情報探索と推論のためのベンチマーク
- Authors: Vardhan Dongre, Chi Gui, Shubham Garg, Hooshang Nayyeri, Gokhan Tur, Dilek Hakkani-Tür, Vikram S. Adve,
- Abstract要約: MIRAGEは、自然なユーザクエリ、専門家が承認したレスポンス、イメージベースのコンテキストを組み合わせることで、専門家のコンサルテーションの完全な複雑さを捉えます。
MIRAGEは35,000以上の実際のユーザ-専門家のインタラクションによって構築され、多様な作物の健康、害虫診断、作物管理シナリオにまたがる。
このベンチマークには7,000以上のユニークな生物学的実体が含まれており、植物種、害虫、病気をカバーしている。
- 参考スコア(独自算出の注目度): 9.649908672930815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MIRAGE, a new benchmark for multimodal expert-level reasoning and decision-making in consultative interaction settings. Designed for the agriculture domain, MIRAGE captures the full complexity of expert consultations by combining natural user queries, expert-authored responses, and image-based context, offering a high-fidelity benchmark for evaluating models on grounded reasoning, clarification strategies, and long-form generation in a real-world, knowledge-intensive domain. Grounded in over 35,000 real user-expert interactions and curated through a carefully designed multi-step pipeline, MIRAGE spans diverse crop health, pest diagnosis, and crop management scenarios. The benchmark includes more than 7,000 unique biological entities, covering plant species, pests, and diseases, making it one of the most taxonomically diverse benchmarks available for vision-language models, grounded in the real world. Unlike existing benchmarks that rely on well-specified user inputs and closed-set taxonomies, MIRAGE features underspecified, context-rich scenarios with open-world settings, requiring models to infer latent knowledge gaps, handle rare entities, and either proactively guide the interaction or respond. Project Page: https://mirage-benchmark.github.io
- Abstract(参考訳): 我々は、マルチモーダル専門家レベルの推論と意思決定のための新しいベンチマークであるMIRAGEを紹介する。
農業分野向けに設計されたMIRAGEは、自然のユーザクエリ、専門家が承認した応答、イメージベースのコンテキストを組み合わせることで、専門家のコンサルテーションの完全な複雑さを捉え、基盤となる推論モデルの評価のための高忠実度ベンチマーク、明確化戦略、そして現実世界の知識集約的な領域におけるロングフォーム生成を提供する。
MIRAGEは、35,000以上の実際のユーザ-専門家のインタラクションを基盤として、慎重に設計されたマルチステップパイプラインを通じてキュレーションされ、多様な作物の健康、害虫診断、作物管理シナリオにまたがる。
このベンチマークには7,000以上のユニークな生物学的実体が含まれており、植物種、害虫、病気をカバーしている。
明確に定義されたユーザ入力とクローズドセットの分類に依存している既存のベンチマークとは異なり、MIRAGEは、オープンワールド設定で仕様が不明確でコンテキストに富んだシナリオを特徴とし、潜在知識のギャップを推測したり、稀なエンティティを処理したり、対話を積極的にガイドしたり、応答したりするモデルを必要とする。
Project Page: https://mirage-benchmark.github.io
関連論文リスト
- Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind [16.96145027280737]
我々は農業リモートセンシング(RS)のベンチマークであるAgroMindを紹介する。
AgroMindは、空間知覚、オブジェクト理解、シーン理解、シーン推論の4つのタスクディメンションをカバーしている。
AgroMind上で18のオープンソースLMMと3つのクローズドソースモデルを評価する。
論文 参考訳(メタデータ) (2025-05-18T02:45:19Z) - A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis [5.006697347461899]
本稿では,農学研究の分野を開拓するための先駆的資源である作物病領域マルチモーダルデータセットについて紹介する。
このデータセットは、さまざまな作物の病気の画像13万7000枚と、幅広い農業知識にまたがる100万の質問と回答のペアで構成されている。
我々は,最先端のマルチモーダルモデルを微調整し,作物病診断の大幅な改善を示すことにより,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2025-03-10T06:37:42Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study [46.55831783809377]
大規模言語モデル(LLM)の幻覚を緩和するための効果的なアプローチとして,検索拡張世代(RAG)がますます認識されている。
PruningRAGはマルチグラニュラリティ・プルーニング・ストラテジーを用いて,関連コンテキストをより効果的に統合し,誤った情報に対するネガティブな影響を軽減するためのプラグアンドプレイRAGフレームワークである。
論文 参考訳(メタデータ) (2024-09-03T03:31:37Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Multiple Expert Brainstorming for Domain Adaptive Person
Re-identification [140.3998019639158]
本稿では、ドメイン適応型人物再IDのための複数の専門家ブレインストーミングネットワーク(MEB-Net)を提案する。
MEB-Netは、異なるアーキテクチャを持つ複数のネットワークをソースドメイン内で事前トレーニングする、相互学習戦略を採用している。
大規模データセットの実験は、最先端技術よりもMEB-Netの方が優れた性能を示している。
論文 参考訳(メタデータ) (2020-07-03T08:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。