論文の概要: PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
- arxiv url: http://arxiv.org/abs/2601.18207v1
- Date: Mon, 26 Jan 2026 06:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.709578
- Title: PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
- Title(参考訳): PaperSearchQA:RLVRを用いた科学論文の検索と推論の学習
- Authors: James Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy,
- Abstract要約: 我々は,1600万件のバイオメディカルペーパーを要約した検索コーパスを公開し,PaperSearchQAと呼ばれるファクトイックなQAデータセットを構築した。
我々は,この環境における検索エージェントを訓練し,非RL検索ベースラインを上回ります。
我々のデータ生成方法はスケーラブルで、他の科学領域にも容易に拡張できます。
- 参考スコア(独自算出の注目度): 64.22412492998754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.
- Abstract(参考訳): サーチエージェント(英: search agent)とは、質問に答えるために知識ベース(またはウェブ)を探索する言語モデル(LM)である。
ほとんどのRLVR検索エージェントは、科学、工学、医学における技術AIシステムとの関係を制限する汎用ドメインQAに取り組む。
この研究では、科学的論文を検索し、推論するための訓練エージェントを提案します -- このテストでは、技術的な質問への回答、実際の科学者に直接関係しており、その能力は将来のAIサイエンティストシステムにとって重要なものになるでしょう。
具体的には,1600万件のバイオメディカル論文を要約した検索コーパスを公開し,このコーパスから回答可能な60万件のサンプルとベンチマークを用いて,PaperSearchQAと呼ばれる課題の多いQAデータセットを構築した。
我々は、この環境における検索エージェントを非RL検索ベースラインを上回るように訓練し、さらに定量的分析を行い、計画、推論、自己検証のような興味深いエージェントの振る舞いを観察する。
私たちのコーパス、データセット、ベンチマークは、人気のあるRLVRトレーニング用のSearch-R1コードベースで使用することができ、https://huggingface.co/collections/jmhb/papersearchqa.comでリリースされています。
最後に、我々のデータ生成方法はスケーラブルで、他の科学的領域に容易に拡張できます。
関連論文リスト
- ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers? [29.17900668495058]
本稿では、フロンティアAIエージェントの評価フレームワークであるReplicationBenchを紹介する。
天体物理学の文献から得られた研究論文全体を、エージェントが複製できるかどうかを検査する。
R ReplicationBenchは、論文スケールで専門家が検証した天体物理学の研究タスクの最初のベンチマークを確立している。
論文 参考訳(メタデータ) (2025-10-28T16:21:19Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - PaperQA: Retrieval-Augmented Generative Agent for Scientific Research [41.9628176602676]
本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
論文 参考訳(メタデータ) (2023-12-08T18:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。