論文の概要: ScholarSearch: Benchmarking Scholar Searching Ability of LLMs
- arxiv url: http://arxiv.org/abs/2506.13784v2
- Date: Fri, 20 Jun 2025 15:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:52.321836
- Title: ScholarSearch: Benchmarking Scholar Searching Ability of LLMs
- Title(参考訳): ScholarSearch: LLMのScholar Search能力のベンチマーク
- Authors: Junting Zhou, Wang Li, Yiyan Liao, Nengyuan Zhang, Tingjia Miao, Zhihui Qi, Yuhan Wu, Tong Yang,
- Abstract要約: 本研究では,学術研究におけるLarge Language Models (LLM) の複雑な情報検索能力を評価するために設計された最初のデータセットであるScholarSearchを提案する。
学術的実践性(Academic Practicality) – 質問内容は実際の学習環境と研究環境を密接に反映する。
我々は、複雑な学術情報検索タスクにおけるLCMの性能向上をより正確に測定し、促進することを期待する。
- 参考スコア(独自算出の注目度): 5.562566989891248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs)' search capabilities have garnered significant attention. Existing benchmarks, such as OpenAI's BrowseComp, primarily focus on general search scenarios and fail to adequately address the specific demands of academic search. These demands include deeper literature tracing and organization, professional support for academic databases, the ability to navigate long-tail academic knowledge, and ensuring academic rigor. Here, we proposed ScholarSearch, the first dataset specifically designed to evaluate the complex information retrieval capabilities of Large Language Models (LLMs) in academic research. ScholarSearch possesses the following key characteristics: Academic Practicality, where question content closely mirrors real academic learning and research environments, avoiding deliberately misleading models; High Difficulty, with answers that are challenging for single models (e.g., Grok DeepSearch or Gemini Deep Research) to provide directly, often requiring at least three deep searches to derive; Concise Evaluation, where limiting conditions ensure answers are as unique as possible, accompanied by clear sources and brief solution explanations, greatly facilitating subsequent audit and verification, surpassing the current lack of analyzed search datasets both domestically and internationally; and Broad Coverage, as the dataset spans at least 15 different academic disciplines. Through ScholarSearch, we expect to more precisely measure and promote the performance improvement of LLMs in complex academic information retrieval tasks. The data is available at: https://huggingface.co/datasets/PKU-DS-LAB/ScholarSearch
- Abstract(参考訳): 大言語モデル (LLM) の検索能力は注目されている。
OpenAIのBrowseCompのような既存のベンチマークは、主に一般的な検索シナリオに焦点を当てており、学術的な検索の特定の要求に適切に対処できない。
これらの要求には、より深い文献追跡と組織、学術データベースの専門的サポート、長期にわたる学術的知識のナビゲート、学術的な厳格さの確保が含まれる。
本稿では,学術研究におけるLarge Language Models(LLM)の複雑な情報検索能力を評価するために設計された,最初のデータセットであるScholarSearchを提案する。
ScholarSearchには次のような重要な特徴がある: 質問内容が、意図的な誤解を招くモデルを避けて、実際の学習と研究環境を密接に反映する学術的実践性、単一モデル(例えば、Grok DeepSearchやGemini Deep Research)で難しい答えを直接提供し、少なくとも3つのディープサーチを導出する必要があることの難しさ、明確な情報源と簡潔なソリューションの説明を伴い、その後の監査と検証を大幅に促進し、分析されたサーチデータセットの現在の欠如を克服する簡潔な評価、そしてデータセットが少なくとも15の学術分野にまたがるブロード・カバージュ(Broad Coverage)である。
ScholarSearchを通じて、複雑な学術情報検索タスクにおけるLCMの性能向上をより正確に測定し、促進することを期待する。
データは以下の通り。 https://huggingface.co/datasets/PKU-DS-LAB/ScholarSearch
関連論文リスト
- SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z) - IntellectSeeker: A Personalized Literature Management System with the Probabilistic Model and Large Language Model [3.104439919958372]
我々は、革新的でパーソナライズされた学術文献管理プラットフォームであるIntellectSeekerを紹介する。
このプラットフォームは、Large Language Model (LLM)ベースのセマンティックエンハンスメントボットと洗練された確率モデルを統合し、文学検索をパーソナライズし、合理化する。
論文 参考訳(メタデータ) (2024-12-10T06:09:49Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [21.17856299966841]
本研究では,学術調査における大規模言語モデル(LLM)の評価のためのベンチマークであるResearchArenaを紹介する。
これらの機会を養うため、12万のフルテキスト学術論文と7.9Kのサーベイ論文の環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。