論文の概要: ScholarGym: Benchmarking Deep Research Workflows on Academic Literature Retrieval
- arxiv url: http://arxiv.org/abs/2601.21654v1
- Date: Thu, 29 Jan 2026 12:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.823874
- Title: ScholarGym: Benchmarking Deep Research Workflows on Academic Literature Retrieval
- Title(参考訳): ScholarGym: 学術文献検索に関する詳細な研究ワークフローのベンチマーク
- Authors: Hao Shen, Hang Yang, Zhouhong Gu,
- Abstract要約: 本稿では,学術研究の再現性評価のためのシミュレーション環境であるScholarGymを紹介する。
決定論的検索を備えた570K論文の静的コーパス上に構築されたScholarGymは,2,536のクエリと専門家による注釈付き基底真理を提供する。
- 参考スコア(独自算出の注目度): 11.41528830724814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented large language models have advanced from single-turn question answering to deep research workflows that iteratively plan queries, invoke external tools, and synthesize information to address complex information needs. Evaluating such workflows presents a fundamental challenge: reliance on live APIs introduces non-determinism, as tool invocations may yield different results across runs due to temporal drift, rate limiting, and evolving backend states. This variance undermines reproducibility and invalidates cross-system comparisons. We present ScholarGym, a simulation environment for reproducible evaluation of deep research workflows on academic literature. The environment decouples workflow components into query planning, tool invocation, and relevance assessment, enabling fine-grained analysis of each stage under controlled conditions. Built on a static corpus of 570K papers with deterministic retrieval, ScholarGym provides 2,536 queries with expert-annotated ground truth. Experiments across diverse backbone models reveal how reasoning capabilities, planning strategies, and selection mechanisms interact over iterative refinement.
- Abstract(参考訳): ツール拡張された大規模言語モデルは、単一ターンの質問応答から、クエリを反復的に計画し、外部ツールを起動し、複雑な情報ニーズに対応するために情報を合成するディープリサーチワークフローへと進化した。
ツールの実行は、時間的ドリフト、レート制限、バックエンド状態の進化による実行中に異なる結果をもたらす可能性があるため、ライブAPIへの依存は非決定性をもたらす。
この分散は再現性を損なうものであり、システム間の比較を無効にする。
学術文献における深層研究ワークフローの再現性評価のためのシミュレーション環境であるScholarGymについて述べる。
環境はワークフローコンポーネントをクエリ計画、ツール呼び出し、関連性評価に分離し、制御された条件下で各ステージのきめ細かい分析を可能にする。
決定論的検索を備えた570K論文の静的コーパス上に構築されたScholarGymは,2,536のクエリと専門家による注釈付き基底真理を提供する。
多様なバックボーンモデルに対する実験は、推論能力、計画戦略、選択メカニズムが反復的洗練に対してどのように作用するかを明らかにする。
関連論文リスト
- AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation [56.886936435727854]
DeepResearchEvalは、ディープリサーチタスク構築とエージェント評価のための自動化フレームワークである。
タスク構築のために,多様なユーザプロファイルに固定された現実的で複雑な研究タスクを生成するペルソナ駆動パイプラインを提案する。
評価には,タスク固有の評価次元,基準,重みを動的に導出する適応的ポイントワイド品質評価と,引用が欠落した場合でもWeb検索によるレポート文の自動抽出と検証を行うアクティブ・ファクト・チェッキングの2つの要素からなるエージェントパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-14T18:38:31Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。