論文の概要: GeoBrowse: A Geolocation Benchmark for Agentic Tool Use with Expert-Annotated Reasoning Traces
- arxiv url: http://arxiv.org/abs/2604.04017v1
- Date: Sun, 05 Apr 2026 08:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.877051
- Title: GeoBrowse: A Geolocation Benchmark for Agentic Tool Use with Expert-Annotated Reasoning Traces
- Title(参考訳): GeoBrowse: 専門家アノテーション付き推論トレースを使用したエージェントツールのジオロケーションベンチマーク
- Authors: Xinyu Geng, Yanjing Xiao, Yuyang Zhang, Hanwen Wang, Xinyan Liu, Rui Min, Tianqing Fang, Yi R. Fung,
- Abstract要約: ディープリサーチエージェントは、多段階ツールの使用を通じて断片化された証拠を統合する。
BrowseCompはそのようなエージェントに対してテキストのみのテストベッドを提供するが、既存のマルチモーダルベンチマークでは弱い視覚的キューの構成とマルチホップ検証の両方を必要とすることは滅多にない。
視覚的推論と知識集約型マルチホップクエリを組み合わせたベンチマークであるGeoBrowseを紹介する。
- 参考スコア(独自算出の注目度): 24.123230954256826
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep research agents integrate fragmented evidence through multi-step tool use. BrowseComp offers a text-only testbed for such agents, but existing multimodal benchmarks rarely require both weak visual cues composition and BrowseComp-style multi-hop verification. Geolocation is a natural testbed because answers depend on combining multiple ambiguous visual cues and validating them with open-web evidence. Thus, we introduce GeoBrowse, a geolocation benchmark that combines visual reasoning with knowledge-intensive multi-hop queries. Level 1 tests extracting and composing fragmented visual cues, and Level 2 increases query difficulty by injecting long-tail knowledge and obfuscating key entities. To support evaluation, we provide an agentic workflow GATE with five think-with-image tools and four knowledge-intensive tools, and release expert-annotated stepwise traces grounded in verifiable evidence for trajectory-level analysis. Experiments show that GATE outperforms direct inference and open-source agents, indicating that no-tool, search-only or image-only setups are insufficient. Gains come from coherent, level-specific tool-use plans rather than more tool calls, as they more reliably reach annotated key evidence steps and make fewer errors when integrating into the final decision. The GeoBrowse bernchmark and codes are provided in https://github.com/ornamentt/GeoBrowse
- Abstract(参考訳): ディープリサーチエージェントは、多段階ツールの使用を通じて断片化された証拠を統合する。
BrowseCompはそのようなエージェントに対してテキストのみのテストベッドを提供するが、既存のマルチモーダルベンチマークでは弱いビジュアルキューの構成とBrowseCompスタイルのマルチホップ検証の両方を必要とすることは滅多にない。
なぜなら、答えは複数の曖昧な視覚的手がかりを組み合わせて、それらをオープンなWebエビデンスで検証することに依存するからである。
そこで本稿では,視覚推論と知識集約型マルチホップクエリを組み合わせた位置情報ベンチマークであるGeoBrowseを紹介する。
レベル1テストでは、断片化されたビジュアルキューを抽出して構成し、レベル2では、ロングテールの知識や難読化キーエンティティを注入することで、クエリの難しさを高める。
評価を支援するために,5つの思考支援ツールと4つの知識集約ツールを備えたエージェントワークフローGATEと,軌道レベル解析の検証可能な証拠に基づく,専門家による段階的トレースをリリースする。
実験の結果、GATEは直接推論やオープンソースエージェントよりも優れており、ツール、検索専用、画像専用の設定が不十分であることが示された。
ツールコールを多用するのではなく、一貫性のある、レベル固有のツール使用プランから得られる利益は、アノテートされた重要なエビデンスステップに確実に到達し、最終決定に組み込む際のエラーを少なくするからである。
GeoBrowseのバーチマークとコードはhttps://github.com/ornamentt/GeoBrowseで提供されている。
関連論文リスト
- OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents [68.85365034738534]
本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。
トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
論文 参考訳(メタデータ) (2026-02-19T18:59:54Z) - WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora [34.720109050809285]
グラフベースのRetrieval-Augmented Generation (GraphRAG)は、階層グラフとして外部知識を整理する。
GraphRAGの既存のベンチマークの多くは、外部知識として短い、キュレートされたパスに依存している。
WildGraphBenchは、GraphRAGのパフォーマンスを野生で評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2026-02-02T12:55:29Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - DS-Det: Single-Query Paradigm and Attention Disentangled Learning for Flexible Object Detection [39.56089737473775]
画像中のフレキシブルな数の物体を検出できるより効率的な変換器検出器DS-Detを提案する。
具体的には、デコーダモデリングのための新しい統合シングルクエリパラダイムを再構成し、導入する。
また,注意障害学習による簡易デコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-26T05:40:04Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.91311158085973]
多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。
大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-26T09:50:55Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Evaluating Tool-Augmented Agents in Remote Sensing Platforms [1.8434042562191815]
既存のベンチマークでは、事前に定義された画像とテキストのデータペアに対して質問応答の入力テンプレートを仮定する。
実際のUIプラットフォーム上で,言語,視覚,クリックベースのアクションの長いシーケンスをキャプチャするベンチマークであるGeoLLM-QAを提案する。
論文 参考訳(メタデータ) (2024-04-23T20:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。