論文の概要: BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents
- arxiv url: http://arxiv.org/abs/2504.12516v1
- Date: Wed, 16 Apr 2025 22:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:22.449125
- Title: BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents
- Title(参考訳): BrowseComp: ブラウジングエージェントのベンチマークをシンプルに実装する
- Authors: Jason Wei, Zhiqing Sun, Spencer Papay, Scott McKinney, Jeffrey Han, Isa Fulford, Hyung Won Chung, Alex Tachard Passos, William Fedus, Amelia Glaese,
- Abstract要約: BrowseCompは、エージェントがWebを閲覧する能力を測定するための、単純だが挑戦的なベンチマークである。
BrowseCompは1,266の質問からなる。
質問の難しさにもかかわらず、BrowseCompは単純で使いやすく、予測された回答は短く、参照された回答に対して容易に検証できる。
- 参考スコア(独自算出の注目度): 47.439345333307074
- License:
- Abstract: We present BrowseComp, a simple yet challenging benchmark for measuring the ability for agents to browse the web. BrowseComp comprises 1,266 questions that require persistently navigating the internet in search of hard-to-find, entangled information. Despite the difficulty of the questions, BrowseComp is simple and easy-to-use, as predicted answers are short and easily verifiable against reference answers. BrowseComp for browsing agents can be seen as analogous to how programming competitions are an incomplete but useful benchmark for coding agents. While BrowseComp sidesteps challenges of a true user query distribution, like generating long answers or resolving ambiguity, it measures the important core capability of exercising persistence and creativity in finding information. BrowseComp can be found at https://github.com/openai/simple-evals.
- Abstract(参考訳): BrowseCompは、エージェントがWebを閲覧する能力を測定するための、単純だが挑戦的なベンチマークである。
BrowseCompは1,266の質問からなる。
質問の難しさにもかかわらず、BrowseCompは単純で使いやすく、予測された回答は短く、参照された回答に対して容易に検証できる。
ブラウジングエージェント用のBrowseCompは、プログラミング競合がコーディングエージェントにとって不完全だが有用なベンチマークである方法に類似していると見なすことができる。
BrowseCompは、長い回答の生成や曖昧さの解消など、真のユーザクエリディストリビューションの課題を脇に置いていますが、情報を見つける上で永続性と創造性を行使する重要なコア能力を測定します。
BrowseCompはhttps://github.com/openai/simple-evalsにある。
関連論文リスト
- DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Meta Operator for Complex Query Answering on Knowledge Graphs [58.340159346749964]
我々は、異なる複雑なクエリタイプではなく、異なる論理演算子型が一般化性を向上させる鍵であると主張する。
本稿では,メタ演算子を限られたデータで学習し,様々な複雑なクエリの演算子のインスタンスに適応するメタ学習アルゴリズムを提案する。
実験結果から,メタオペレータの学習は,従来のCQAモデルやメタCQAモデルよりも効果的であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T08:54:25Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Brain-inspired Search Engine Assistant based on Knowledge Graph [53.89429854626489]
developerbotは脳にインスパイアされた、knowledge graphの名前の検索エンジンアシスタントだ。
複雑なマルチ制約クエリを複数の順序制約に分割することで、多層クエリグラフを構築する。
次に、制約推論プロセスを認知科学の拡散活性化モデルに触発されたサブグラフ探索プロセスとしてモデル化する。
論文 参考訳(メタデータ) (2020-12-25T06:36:11Z) - Predicting respondent difficulty in web surveys: A machine-learning
approach based on mouse movement features [3.6944296923226316]
本稿では,マウス追跡データの予測値について,回答者の難易度について検討する。
我々は、回答者の就業履歴と人口統計情報に関する調査データを用いている。
そこで,本研究では,基本マウスの行動を調整するパーソナライズ手法を開発し,その性能を評価する。
論文 参考訳(メタデータ) (2020-11-05T10:54:33Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。