論文の概要: SciNetBench: A Relation-Aware Benchmark for Scientific Literature Retrieval Agents
- arxiv url: http://arxiv.org/abs/2601.03260v1
- Date: Tue, 16 Dec 2025 02:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.572139
- Title: SciNetBench: A Relation-Aware Benchmark for Scientific Literature Retrieval Agents
- Title(参考訳): SciNetBench: 学術文献検索エージェントのための関係意識ベンチマーク
- Authors: Chenyang Shao, Yong Li, Fengli Xu,
- Abstract要約: 本稿では,文献検索エージェントのためのSciNetBenchを提案する。
本ベンチマークでは,新しい知識構造を持つ論文のエゴ中心検索,学術的関係のペアワイド同定,科学的進化的軌道のパスワイド再構築の3つのレベルを体系的に評価した。
関係認識検索タスクの精度は20%以下に低下することが多く、現在の検索パラダイムの中核的な欠点が浮かび上がっている。
- 参考スコア(独自算出の注目度): 12.057215000080705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of AI agent has spurred the development of advanced research tools, such as Deep Research. Achieving this require a nuanced understanding of the relations within scientific literature, surpasses the scope of keyword-based or embedding-based retrieval. Existing retrieval agents mainly focus on the content-level similarities and are unable to decode critical relational dynamics, such as identifying corroborating or conflicting studies or tracing technological lineages, all of which are essential for a comprehensive literature review. Consequently, this fundamental limitation often results in a fragmented knowledge structure, misleading sentiment interpretation, and inadequate modeling of collective scientific progress. To investigate relation-aware retrieval more deeply, we propose SciNetBench, the first Scientific Network Relation-aware Benchmark for literature retrieval agents. Constructed from a corpus of over 18 million AI papers, our benchmark systematically evaluates three levels of relations: ego-centric retrieval of papers with novel knowledge structures, pair-wise identification of scholarly relationships, and path-wise reconstruction of scientific evolutionary trajectories. Through extensive evaluation of three categories of retrieval agents, we find that their accuracy on relation-aware retrieval tasks often falls below 20%, revealing a core shortcoming of current retrieval paradigms. Notably, further experiments on the literature review tasks demonstrate that providing agents with relational ground truth leads to a substantial 23.4% performance improvement in the review quality, validating the critical importance of relation-aware retrieval. We publicly release our benchmark at https://anonymous.4open.science/r/SciNetBench/ to support future research on advanced retrieval systems.
- Abstract(参考訳): AIエージェントの急速な開発は、Deep Researchのような先進的な研究ツールの開発を加速させた。
これを実現するには、科学文献内の関係を微妙に理解し、キーワードベースの検索や埋め込みベースの検索の範囲を超えなければならない。
既存の検索エージェントは、主に内容レベルの類似性に焦点をあてており、相関性や矛盾する研究の特定や技術的系統の追跡といった重要な関係力学を復号することができない。
その結果、この基本的な制限は、しばしば断片化された知識構造、誤解を招く感情解釈、そして集団的な科学的進歩の不十分なモデリングをもたらす。
関係認識検索をより深く研究するため,文献検索エージェントのためのSciNetBench,SciNetBenchを提案する。
私たちのベンチマークは、1800万以上のAI論文のコーパスから構築され、新しい知識構造を持つ論文のエゴ中心の検索、学術的関係のペアワイド同定、科学的進化軌道のパスワイド再構築の3つのレベルを体系的に評価します。
検索エージェントの3つのカテゴリを広範囲に評価することにより、関係認識検索タスクの精度が20%以下になることが多く、現在の検索パラダイムの中核的な欠点が明らかになる。
特に、文献レビュータスクに関するさらなる実験では、関係基盤真理をエージェントに提供することで、レビュー品質が23.4%向上し、関係認識検索の重要な重要性が検証された。
我々は、先進的な検索システムの研究を支援するために、https://anonymous.4open.science/r/SciNetBench/でベンチマークを公開している。
関連論文リスト
- Intelligent Scientific Literature Explorer using Machine Learning (ISLE) [0.797970449705065]
本稿では,大規模データ取得,ハイブリッド検索,セマンティックトピックモデリング,異種知識グラフ構築を組み合わせた科学文献探索システムを提案する。
提案するフレームワークは,AIによる科学的発見の基盤となる。
論文 参考訳(メタデータ) (2025-12-14T16:54:24Z) - ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers? [29.17900668495058]
本稿では、フロンティアAIエージェントの評価フレームワークであるReplicationBenchを紹介する。
天体物理学の文献から得られた研究論文全体を、エージェントが複製できるかどうかを検査する。
R ReplicationBenchは、論文スケールで専門家が検証した天体物理学の研究タスクの最初のベンチマークを確立している。
論文 参考訳(メタデータ) (2025-10-28T16:21:19Z) - WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.28593628378991]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。
WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文 参考訳(メタデータ) (2025-09-16T17:57:17Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Evaluating BERT-based Scientific Relation Classifiers for Scholarly
Knowledge Graph Construction on Digital Library Collections [5.8962650619804755]
関連する科学的概念間の意味的関係を推測することは重要なステップである。
BERTベースの事前学習モデルは、自動関係分類のために広く研究されている。
既存の手法は主にクリーンテキストで評価される。
これらの制限に対処するため、私たちはOCRノイズの多いテキストを作成しました。
論文 参考訳(メタデータ) (2023-05-03T17:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。