論文の概要: MARCA: A Checklist-Based Benchmark for Multilingual Web Search
- arxiv url: http://arxiv.org/abs/2604.14448v1
- Date: Wed, 15 Apr 2026 21:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.626466
- Title: MARCA: A Checklist-Based Benchmark for Multilingual Web Search
- Title(参考訳): MARCA:多言語Web検索のためのチェックリストベースのベンチマーク
- Authors: Thales Sales Almeida, Giovana Kerche Bonás, Ramon Pires, Celio Larcher, Hugo Abonizio, Marcos Piau, Roseval Malaquias Junior, Rodrigo Nogueira, Thiago Laitz,
- Abstract要約: Web ベースの情報検索において,大規模言語モデル (LLM) を評価するベンチマークである textscMARCA を提案する。
我々は、直接Web検索とスクレイピングを備えたベーシックフレームワークと、委譲サブエージェントによるタスクの分解を可能にするOrchestratorフレームワークの2つのインタラクション設定の下で、14のモデルを評価する。
- 参考スコア(独自算出の注目度): 8.678622777553263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as sources of information, yet their reliability depends on the ability to search the web, select relevant evidence, and synthesize complete answers. While recent benchmarks evaluate web-browsing and agentic tool use, multilingual settings, and Portuguese in particular, remain underexplored. We present \textsc{MARCA}, a bilingual (English and Portuguese) benchmark for evaluating LLMs on web-based information seeking. \textsc{MARCA} consists of 52 manually authored multi-entity questions, paired with manually validated checklist-style rubrics that explicitly measure answer completeness and correctness. We evaluate 14 models under two interaction settings: a Basic framework with direct web search and scraping, and an Orchestrator framework that enables task decomposition via delegated subagents. To capture stochasticity, each question is executed multiple times and performance is reported with run-level uncertainty. Across models, we observe large performance differences, find that orchestration often improves coverage, and identify substantial variability in how models transfer from English to Portuguese. The benchmark is available at https://github.com/maritaca-ai/MARCA
- Abstract(参考訳): 大規模言語モデル(LLM)は情報ソースとしてますます利用されているが、その信頼性はWebを検索し、関連する証拠を選択し、完全な答えを合成する能力に依存する。
最近のベンチマークでは、Webブラウジングとエージェントツールの使用を評価しているが、多言語設定、特にポルトガル語は未調査のままである。
We present \textsc{MARCA}, a bilingual ( English and Portuguese) benchmark for a LLMs on web-based information seeking。
\textsc{MARCA} は52の質問を手動で作成し、手動で検証されたチェックリストスタイルのルーリックと組み合わせて答えの完全性と正しさを明示的に測定する。
我々は、直接Web検索とスクレイピングを備えたベーシックフレームワークと、委譲サブエージェントによるタスクの分解を可能にするOrchestratorフレームワークの2つのインタラクション設定の下で、14のモデルを評価する。
確率性を捉えるために、各質問は複数回実行され、実行レベルの不確実性によって性能が報告される。
モデル全体では、大きなパフォーマンスの違いを観察し、オーケストレーションがカバレッジを改善することが少なく、モデルが英語からポルトガル語にどのように移行するかにおいて、かなりのバリエーションが特定できる。
ベンチマークはhttps://github.com/maritaca-ai/MARCAで公開されている。
関連論文リスト
- Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG [1.4425299138308667]
BM25の文書は、コーパスレベルの重み付けと重なり合う。
大規模なクエリドキュメントデータセットでトレーニングされたエンドツーエンドのマルチモーダルレトリバーは、これらのアプローチよりも大幅に改善されている。
より優れたドキュメント表現がベンチマーク改善の原動力であることを実証する。
論文 参考訳(メタデータ) (2026-03-04T16:21:20Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision [44.04243892727856]
言語間のオープンドメイン質問応答は複雑な問題である。
CLQAは単一エンコーダデコーダモデルを用いて処理可能であることを示す。
ウィキペディア内の言語間リンク構造を利用した自己教師型手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T11:42:29Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。