論文の概要: ScholarEval: Research Idea Evaluation Grounded in Literature
- arxiv url: http://arxiv.org/abs/2510.16234v1
- Date: Fri, 17 Oct 2025 21:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.911668
- Title: ScholarEval: Research Idea Evaluation Grounded in Literature
- Title(参考訳): ScholarEval: 文献に基づく研究思想評価
- Authors: Hanane Nour Moussa, Patrick Queiroz Da Silva, Daniel Adu-Ampratwum, Alyson East, Zitong Lu, Nikki Puccetti, Mingyi Xue, Huan Sun, Bodhisattwa Prasad Majumder, Sachin Kumar,
- Abstract要約: ScholarEvalは2つの基本的な基準に基づいて研究アイデアを評価する検索強化評価フレームワークである。
ScholarEvalを評価するために、ScholarIdeasを紹介します。
以上の結果から,ScholarEvalは,ScholarIdeasのアノテートルーリックに言及される点を,すべての基線に比べてはるかに高い範囲でカバーできることが示唆された。
- 参考スコア(独自算出の注目度): 18.31628500009905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI tools become increasingly common for research ideation, robust evaluation is critical to ensure the validity and usefulness of generated ideas. We introduce ScholarEval, a retrieval augmented evaluation framework that assesses research ideas based on two fundamental criteria: soundness - the empirical validity of proposed methods based on existing literature, and contribution - the degree of advancement made by the idea across different dimensions relative to prior research. To evaluate ScholarEval, we introduce ScholarIdeas, the first expert-annotated dataset of multi-domain research ideas and reviews, comprised of 117 ideas across four disciplines: artificial intelligence, neuroscience, biochemistry, and ecology. Our evaluation shows that ScholarEval achieves significantly higher coverage of points mentioned in the human expert annotated rubrics in ScholarIdeas compared to all baselines. Furthermore, ScholarEval is consistently preferred over our strongest baseline o4-mini-deep-research, a reasoning and search-enabled agentic system by OpenAI, in terms of evaluation actionability, depth, and evidence support. Our large-scale user study also shows that ScholarEval significantly outperforms deep research in literature engagement, idea refinement, and usefulness. We openly release our code, dataset, and ScholarEval tool for the community to use and build on.
- Abstract(参考訳): 研究のアイデアとしてAIツールがますます一般的になるにつれて、ロバストな評価は、生成されたアイデアの有効性と有用性を保証するために重要である。
ScholarEvalは、既存の文献に基づく提案手法の実証的妥当性と、先行研究と比較して異なる次元における研究アイデアの進歩度という、2つの基本的基準に基づいて研究アイデアを評価する検索強化評価フレームワークである。
ScholarEvalを評価するために、ScholarIdeasを紹介します。ScholarIdeasは、人工知能、神経科学、生化学、生態学の4分野にまたがる117のアイデアで構成された、マルチドメインの研究アイデアとレビューのエキスパートによる最初のデータセットです。
以上の結果から,ScholarEvalは,ScholarIdeasのアノテートルーリックに言及される点を,すべての基線に比べてはるかに高い範囲でカバーできることが示唆された。
さらに、ScholarEvalは、我々の最強ベースラインであるo4-mini-deep-researchよりも一貫して好まれています。
我々の大規模ユーザ調査は、ScholarEvalが文学のエンゲージメント、アイデアの洗練、有用性において、非常に優れていることも示しています。
コミュニティが利用して構築するためのコード、データセット、ScholarEvalツールをオープンにリリースしています。
関連論文リスト
- InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.30601926271864]
InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。
我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。
InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
論文 参考訳(メタデータ) (2026-02-16T00:40:31Z) - The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - EduResearchBench: A Hierarchical Atomic Task Decomposition Benchmark for Full-Lifecycle Educational Research [21.988207602041182]
EduResearchBenchは,学術論文を対象とした初の総合的評価プラットフォームである。
EduResearchBenchは階層的原子タスク分解(HATD)フレームワーク上に構築されています。
本稿では,基礎的スキルから複雑な方法論的推論,議論に至るまで,段階的に能力を高めるカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2026-01-22T09:52:30Z) - Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent [52.876617746453995]
ミ・ベンチ博士(Dr.Mi-Bench)は、科学深層研究(DR)エージェントのためのモジュール統合ベンチマークである。
Dr.Mi-Evalはモジュラー統合評価パラダイムである。
論文 参考訳(メタデータ) (2025-11-30T17:16:47Z) - Deep Ideation: Designing LLM Agents to Generate Novel Research Ideas on Scientific Concept Network [9.317340414316446]
本稿では,キーワード共起関係と文脈関係をキャプチャする科学ネットワークを統合する枠組みを提案する。
現実のレビュアーのフィードバックに基づいて訓練された批評家エンジンは、アイデアの新規性と実現可能性に関する継続的なフィードバックを提供することによって、プロセスをガイドする。
当社のアプローチでは,他の手法に比べて10.67%の品質向上を実現しています。
論文 参考訳(メタデータ) (2025-11-04T04:00:20Z) - ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry [22.615102398311432]
我々は、ディープAI研究システムの能力を評価することに焦点を当てた最初のベンチマークであるResearcherBenchを紹介する。
現実の科学的シナリオから専門的に選択された65の質問のデータセットを収集した。
OpenAI Deep ResearchとGemini Deep Researchは、他のシステムよりも格段に優れており、オープンエンドのコンサルティングの質問では特に強みがある。
論文 参考訳(メタデータ) (2025-07-22T06:51:26Z) - OpenReview Should be Protected and Leveraged as a Community Asset for Research in the Era of Large Language Models [55.21589313404023]
OpenReviewは、研究論文、ピアレビュー、著者の反論、メタレビュー、決定結果の継続的な進化を続けるリポジトリである。
OpenReviewは、ピアレビュープロセスの品質、スケーラビリティ、説明責任の向上、真に専門家の議論に根ざした有意義でオープンなベンチマークの実現、専門家の評価、意図、科学的価値を反映した現実世界のインタラクションによるアライメント研究の支援という、ユニークな貢献が可能な3つの領域を強調します。
コミュニティは、OpenReviewに関する標準化されたベンチマークと利用ガイドラインを共同で検討し、責任あるデータの使用、倫理的考慮、集団スチュワードシップに関するより広範な対話を招待することを提案します。
論文 参考訳(メタデータ) (2025-05-24T09:07:13Z) - Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。
これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文 参考訳(メタデータ) (2025-02-07T18:26:45Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。