論文の概要: PaperArena: An Evaluation Benchmark for Tool-Augmented Agentic Reasoning on Scientific Literature
- arxiv url: http://arxiv.org/abs/2510.10909v1
- Date: Mon, 13 Oct 2025 02:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.148905
- Title: PaperArena: An Evaluation Benchmark for Tool-Augmented Agentic Reasoning on Scientific Literature
- Title(参考訳): PaperArena: ツール強化エージェント推論のための評価ベンチマーク
- Authors: Daoyu Wang, Mingyue Cheng, Qi Liu, Shuo Yu, Zirui Liu, Ze Guo,
- Abstract要約: 本研究では,大規模言語モデル(LLM)に基づくエージェントの評価ベンチマークであるPaperArenaを提案する。
研究上の疑問から、エージェントは推論や適切なツールとのインタラクションを通じて、複数の論文にまたがる多様なフォーマットを統合する必要がある。
実験の結果、高度に確立されたエージェントを駆動する最も先進的なLCMでさえ、平均精度は38.78%に過ぎなかった。
- 参考スコア(独自算出の注目度): 11.804526152911386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and reasoning on the web-scale scientific literature is a crucial touchstone for large language model (LLM) based agents designed to support complex knowledge-intensive tasks. However, existing works are mainly restricted to tool-free tasks within isolated papers, largely due to the lack of a benchmark for cross-paper reasoning and multi-tool orchestration in real research scenarios. In this work, we propose PaperArena, an evaluation benchmark for agents to address real-world research questions that typically require integrating information across multiple papers with the assistance of external tools. Given a research question, agents should integrate diverse formats across multiple papers through reasoning and interacting with appropriate tools, thereby producing a well-grounded answer. To support standardized evaluation, we provide a modular and extensible platform for agent execution, offering tools such as multimodal parsing, context retrieval, and programmatic computation. Experimental results reveal that even the most advanced LLM powering a well-established agent system achieves merely 38.78% average accuracy. On the hard subset, accuracy drops to only 18.47%, highlighting great potential for improvement. We also present several empirical findings, including that all agents tested exhibit inefficient tool usage, often invoking more tools than necessary to solve a task. We invite the community to adopt PaperArena to develop and evaluate more capable agents for scientific discovery. Our code and data are available https://github.com/Melmaphother/PaperArena.
- Abstract(参考訳): ウェブスケールの科学文献の理解と推論は、複雑な知識集約的なタスクをサポートするように設計された大規模言語モデル(LLM)ベースのエージェントにとって重要な手掛かりである。
しかしながら、既存の作業は、主に独立した論文内のツールフリーなタスクに制限されている。主な原因は、実際の研究シナリオにおいて、クロスペーパー推論とマルチツールオーケストレーションのためのベンチマークが欠如していることである。
本研究では,外部ツールの助けを借りて,複数の論文にまたがる情報の統合を必要とする現実的な研究課題に,エージェントが対処するための評価ベンチマークPaperArenaを提案する。
研究課題が与えられた場合、エージェントは推論や適切なツールとの相互作用を通じて、複数の論文にまたがる多様なフォーマットを統合する必要がある。
標準化された評価を支援するために,マルチモーダル解析,コンテキスト検索,プログラム計算などのツールを提供する,エージェント実行のためのモジュールで拡張可能なプラットフォームを提供する。
実験結果から、高度に確立されたエージェントシステムを駆動する最も先進的なLCMでさえ平均精度は38.78%に過ぎなかったことが判明した。
ハードサブセットでは、精度は18.47%に低下し、改善の可能性が浮かび上がっている。
また,テスト対象のすべてのエージェントが非効率なツールの使用を示し,タスクの解決に必要以上に多くのツールを起動する,という経験的知見も提示した。
我々はコミュニティにPaperArenaを採用し、科学的発見のためのより有能なエージェントの開発と評価を依頼する。
私たちのコードとデータはhttps://github.com/Melmaphother/PaperArena.comで利用可能です。
関連論文リスト
- GSM-Agent: Understanding Agentic Reasoning Using Controllable Environments [56.007498767771075]
GSM-Agentは複雑な環境でエージェント推論を評価するための新しいベンチマークである。
我々は,環境文書の埋め込みをノードにクラスタ化することでエージェント推論パターンを分析し,各ツールコールを最も近いノードにマッピングする。
本稿では,LLMのエージェント推論性能を向上させるためのツール拡張テストタイムスケーリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:37Z) - Accelerating Discovery: Rapid Literature Screening with LLMs [1.2586771241101986]
研究者は、しばしばスパース情報を含む多数の非構造化ソースをレビューし、フィルタリングする必要がある。
文書の検索とフィルタリングを支援するLarge Language Model (LLM) アシスタントを開発した。
論文 参考訳(メタデータ) (2025-09-16T14:01:44Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - RExBench: Can coding agents autonomously implement AI research extensions? [14.147417159347448]
LLM(Large Language Models)に基づくエージェントは、高度なソフトウェアエンジニアリングタスクを自律的に実行することを約束している。
研究拡張とその実装は,このようなシステムにとって重要な能力である,と我々は主張する。
この機能の評価をサポートするために、RExBenchを導入します。
論文 参考訳(メタデータ) (2025-06-27T19:41:41Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。
しかし、これらのツールは人間の開発者によって事前に実装されなければならない。
論文をコードで自律的にLLM互換のツールに変換するエージェントフレームワークであるToolMakerを提案する。
論文 参考訳(メタデータ) (2025-02-17T11:44:11Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。