論文の概要: ScholarEval: Research Idea Evaluation Grounded in Literature
- arxiv url: http://arxiv.org/abs/2510.16234v1
- Date: Fri, 17 Oct 2025 21:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.911668
- Title: ScholarEval: Research Idea Evaluation Grounded in Literature
- Title(参考訳): ScholarEval: 文献に基づく研究思想評価
- Authors: Hanane Nour Moussa, Patrick Queiroz Da Silva, Daniel Adu-Ampratwum, Alyson East, Zitong Lu, Nikki Puccetti, Mingyi Xue, Huan Sun, Bodhisattwa Prasad Majumder, Sachin Kumar,
- Abstract要約: ScholarEvalは2つの基本的な基準に基づいて研究アイデアを評価する検索強化評価フレームワークである。
ScholarEvalを評価するために、ScholarIdeasを紹介します。
以上の結果から,ScholarEvalは,ScholarIdeasのアノテートルーリックに言及される点を,すべての基線に比べてはるかに高い範囲でカバーできることが示唆された。
- 参考スコア(独自算出の注目度): 18.31628500009905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI tools become increasingly common for research ideation, robust evaluation is critical to ensure the validity and usefulness of generated ideas. We introduce ScholarEval, a retrieval augmented evaluation framework that assesses research ideas based on two fundamental criteria: soundness - the empirical validity of proposed methods based on existing literature, and contribution - the degree of advancement made by the idea across different dimensions relative to prior research. To evaluate ScholarEval, we introduce ScholarIdeas, the first expert-annotated dataset of multi-domain research ideas and reviews, comprised of 117 ideas across four disciplines: artificial intelligence, neuroscience, biochemistry, and ecology. Our evaluation shows that ScholarEval achieves significantly higher coverage of points mentioned in the human expert annotated rubrics in ScholarIdeas compared to all baselines. Furthermore, ScholarEval is consistently preferred over our strongest baseline o4-mini-deep-research, a reasoning and search-enabled agentic system by OpenAI, in terms of evaluation actionability, depth, and evidence support. Our large-scale user study also shows that ScholarEval significantly outperforms deep research in literature engagement, idea refinement, and usefulness. We openly release our code, dataset, and ScholarEval tool for the community to use and build on.
- Abstract(参考訳): 研究のアイデアとしてAIツールがますます一般的になるにつれて、ロバストな評価は、生成されたアイデアの有効性と有用性を保証するために重要である。
ScholarEvalは、既存の文献に基づく提案手法の実証的妥当性と、先行研究と比較して異なる次元における研究アイデアの進歩度という、2つの基本的基準に基づいて研究アイデアを評価する検索強化評価フレームワークである。
ScholarEvalを評価するために、ScholarIdeasを紹介します。ScholarIdeasは、人工知能、神経科学、生化学、生態学の4分野にまたがる117のアイデアで構成された、マルチドメインの研究アイデアとレビューのエキスパートによる最初のデータセットです。
以上の結果から,ScholarEvalは,ScholarIdeasのアノテートルーリックに言及される点を,すべての基線に比べてはるかに高い範囲でカバーできることが示唆された。
さらに、ScholarEvalは、我々の最強ベースラインであるo4-mini-deep-researchよりも一貫して好まれています。
我々の大規模ユーザ調査は、ScholarEvalが文学のエンゲージメント、アイデアの洗練、有用性において、非常に優れていることも示しています。
コミュニティが利用して構築するためのコード、データセット、ScholarEvalツールをオープンにリリースしています。
関連論文リスト
- ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry [22.615102398311432]
我々は、ディープAI研究システムの能力を評価することに焦点を当てた最初のベンチマークであるResearcherBenchを紹介する。
現実の科学的シナリオから専門的に選択された65の質問のデータセットを収集した。
OpenAI Deep ResearchとGemini Deep Researchは、他のシステムよりも格段に優れており、オープンエンドのコンサルティングの質問では特に強みがある。
論文 参考訳(メタデータ) (2025-07-22T06:51:26Z) - OpenReview Should be Protected and Leveraged as a Community Asset for Research in the Era of Large Language Models [55.21589313404023]
OpenReviewは、研究論文、ピアレビュー、著者の反論、メタレビュー、決定結果の継続的な進化を続けるリポジトリである。
OpenReviewは、ピアレビュープロセスの品質、スケーラビリティ、説明責任の向上、真に専門家の議論に根ざした有意義でオープンなベンチマークの実現、専門家の評価、意図、科学的価値を反映した現実世界のインタラクションによるアライメント研究の支援という、ユニークな貢献が可能な3つの領域を強調します。
コミュニティは、OpenReviewに関する標準化されたベンチマークと利用ガイドラインを共同で検討し、責任あるデータの使用、倫理的考慮、集団スチュワードシップに関するより広範な対話を招待することを提案します。
論文 参考訳(メタデータ) (2025-05-24T09:07:13Z) - Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。
これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文 参考訳(メタデータ) (2025-02-07T18:26:45Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。