論文の概要: BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
- arxiv url: http://arxiv.org/abs/2504.19314v2
- Date: Thu, 01 May 2025 05:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.225132
- Title: BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
- Title(参考訳): BrowseComp-ZH:中国語における大規模言語モデルのWebブラウザ能力のベンチマーク
- Authors: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua,
- Abstract要約: BrowseComp-ZHは、中国のWeb上で大規模言語モデル(LLM)を評価するためのベンチマークである。
11のドメインにまたがる289のマルチホップ質問で構成されている。
強い会話能力と検索能力にもかかわらず、ほとんどのモデルは苦戦している。
- 参考スコア(独自算出の注目度): 30.994503814617637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) evolve into tool-using agents, the ability to browse the web in real-time has become a critical yardstick for measuring their reasoning and retrieval competence. Existing benchmarks such as BrowseComp concentrate on English and overlook the linguistic, infrastructural, and censorship-related complexities of other major information ecosystems -- most notably Chinese. To address this gap, we introduce BrowseComp-ZH, a high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning 11 diverse domains. Each question is reverse-engineered from a short, objective, and easily verifiable answer (e.g., a date, number, or proper noun). A two-stage quality control protocol is applied to strive for high question difficulty and answer uniqueness. We benchmark over 20 state-of-the-art language models and agentic search systems on our proposed BrowseComp-ZH. Despite their strong conversational and retrieval capabilities, most models struggle severely: a large number achieve accuracy rates below 10%, and only a handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch, reaches just 42.9%. These results demonstrate the considerable difficulty of BrowseComp-ZH, where success demands not only effective retrieval strategies, but also sophisticated reasoning and information reconciliation -- capabilities that current models still struggle to master. Our dataset, construction guidelines, and benchmark results have been publicly released at https://github.com/PALIN2018/BrowseComp-ZH.
- Abstract(参考訳): 大規模言語モデル(LLM)がツール利用エージェントへと進化するにつれて、Webをリアルタイムで閲覧する能力は、その推論と検索能力を測定する上で重要な要素となっている。
BrowseCompのような既存のベンチマークは英語に集中しており、他の主要情報エコシステムの言語、インフラ、検閲に関連する複雑さを見落としている。
このギャップに対処するために、中国ウェブ上でLLMエージェントを包括的に評価するために構築された高次ベンチマークであるBrowseComp-ZHを紹介する。
BrowseComp-ZHは11のドメインにまたがる289のマルチホップ質問で構成されている。
各質問は、短く客観的で容易に検証可能な答え(例えば、日付、番号、固有名詞)からリバースエンジニアリングされる。
2段階の品質制御プロトコルを適用し、高い疑問の難しさと一意性に答える。
提案したBrowseComp-ZH上で20以上の最先端言語モデルとエージェント検索システムをベンチマークする。
強い会話能力と検索能力にもかかわらず、ほとんどのモデルは厳しい苦労をしており、多くのモデルは10%未満の精度で達成し、わずかに20%を超える程度である。
最も優れたシステムであるOpenAIのDeepResearchでさえ、わずか42.9%である。
これらの結果は、BrowseComp-ZHの相当な難しさを示している。そこでは、効果的な検索戦略だけでなく、洗練された推論と情報和解も要求される。
私たちのデータセット、構築ガイドライン、ベンチマーク結果はhttps://github.com/PALIN2018/BrowseComp-ZH.comで公開されています。
関連論文リスト
- Bactrainus: Optimizing Large Language Models for Multi-hop Complex Question Answering Tasks [5.439505575097552]
本研究では,HotpotQAデータセットを用いて,大規模言語モデルのドメイン固有タスク実行能力を評価する。
このタスクは、これらのモデルの言語理解能力を評価するための挑戦的なベンチマークとなる。
その結果,これらの手法と大規模言語モデルを統合することで,F1スコアの最大4%の改善が期待できることがわかった。
論文 参考訳(メタデータ) (2025-01-10T18:44:06Z) - Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents [9.003325286793288]
人間の言語を理解するために採用された大規模言語モデル(LLM)は、人工知能(AI)ウェブサーチエージェントの開発を促進する。
本稿では、レベル認識ナビゲーションによる汎用的かつトレーニング不要なWeb検索エージェントであるLevel-Navi Agentについて、十分な注釈付きデータセット(Web24)と適切な評価基準を伴って提案する。
論文 参考訳(メタデータ) (2024-12-20T08:03:12Z) - Multi-hop Evidence Pursuit Meets the Web: Team Papelo at FEVER 2024 [1.3923460621808879]
大規模言語モデル(LLM)の推論能力と,現代の検索エンジンの検索能力を組み合わせることで,この処理を自動化できることが示されている。
マルチホップエビデンス追跡戦略の下で,LSMと検索を統合した。
提案システムでは,開発セットで.510 AVeriTeC,テストセットで.477 AVeriTeCを達成した。
論文 参考訳(メタデータ) (2024-11-08T18:25:06Z) - INQUIRE: A Natural World Text-to-Image Retrieval Benchmark [51.823709631153946]
InQUIREは、専門家レベルのクエリにおけるマルチモーダル視覚言語モデルに挑戦するために設計されたテキスト・ツー・イメージ検索ベンチマークである。
InQUIREには、iNaturalist 2024(iNat24)、500万の自然界の画像の新しいデータセット、250のエキスパートレベルの検索クエリが含まれている。
InQUIRE-Fullrank,完全なデータセットランキングタスク,INQUIRE-Rerank,トップ100検索の精算タスクの2つの中核検索タスクを評価した。
論文 参考訳(メタデータ) (2024-11-04T19:16:53Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning [67.26776442697184]
我々はHuskyを紹介した。Huskyは総合的でオープンソースの言語エージェントで、統一されたアクション空間について推論することを学ぶ。
ハスキーは、(1)与えられたタスクを解決するために次のアクションを生成すること、2)エキスパートモデルを使用してアクションを実行すること、の2つの段階を繰り返す。
実験の結果,Huskyは14の評価データセットで先行言語エージェントよりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T17:07:25Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - LMentry: A Language Model Benchmark of Elementary Language Tasks [39.71352171304755]
LMentryは、人間にとって自明なタスクのコンパクトなセットに焦点を当てたベンチマークである。
大きな言語モデルの能力と堅牢性に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-11-03T18:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。