論文の概要: InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem
- arxiv url: http://arxiv.org/abs/2602.14367v1
- Date: Mon, 16 Feb 2026 00:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.031391
- Title: InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem
- Title(参考訳): InnoEval:知識を取り巻く多視点推論問題としての研究思想評価について
- Authors: Shuofei Qiao, Yunxiang Wei, Xuehai Wang, Bin Wu, Boyang Xue, Ningyu Zhang, Hossein A. Rahmani, Yanshan Wang, Qiang Zhang, Keyan Ding, Jeff Z. Pan, Huajun Chen, Emine Yilmaz,
- Abstract要約: InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。
我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。
InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
- 参考スコア(独自算出の注目度): 87.30601926271864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of Large Language Models has catalyzed a surge in scientific idea production, yet this leap has not been accompanied by a matching advance in idea evaluation. The fundamental nature of scientific evaluation needs knowledgeable grounding, collective deliberation, and multi-criteria decision-making. However, existing idea evaluation methods often suffer from narrow knowledge horizons, flattened evaluation dimensions, and the inherent bias in LLM-as-a-Judge. To address these, we regard idea evaluation as a knowledge-grounded, multi-perspective reasoning problem and introduce InnoEval, a deep innovation evaluation framework designed to emulate human-level idea assessment. We apply a heterogeneous deep knowledge search engine that retrieves and grounds dynamic evidence from diverse online sources. We further achieve review consensus with an innovation review board containing reviewers with distinct academic backgrounds, enabling a multi-dimensional decoupled evaluation across multiple metrics. We construct comprehensive datasets derived from authoritative peer-reviewed submissions to benchmark InnoEval. Experiments demonstrate that InnoEval can consistently outperform baselines in point-wise, pair-wise, and group-wise evaluation tasks, exhibiting judgment patterns and consensus highly aligned with human experts.
- Abstract(参考訳): 大規模言語モデルの急速な進化は、科学的アイデア生産の急激な増加をもたらしたが、この飛躍は、アイデア評価の相応の進歩を伴わない。
科学的評価の基本的な性質は、知識のある根拠づけ、総合的な検討、多条件意思決定が必要である。
しかし、既存のアイデア評価手法は、狭い知識の地平線、平坦な評価次元、LLM-as-a-Judgeの固有のバイアスに悩まされることが多い。
そこで我々は,アイデア評価を知識に基づく多視点推論問題とみなし,人間レベルのアイデア評価をエミュレートした深いイノベーション評価フレームワークであるInnoEvalを紹介した。
我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。
我々はまた、異なる学術的背景を持つレビュアーを含むイノベーションレビューボードとのレビューコンセンサスを達成し、複数のメトリクスをまたいだ多次元のデカップリング評価を可能にした。
InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
実験により、InnoEvalは、ポイントワイド、ペアワイド、グループワイドの評価タスクにおいて一貫してベースラインを上回り、判断パターンを示し、人間の専門家と高度に整合したコンセンサスを示す。
関連論文リスト
- Reward Modeling for Scientific Writing Evaluation [50.33952894976367]
多様なオープンエンドの科学的記述タスクを評価するために、確実にデプロイできるモデルを開発することが重要である。
本稿では,科学的執筆評価に適した費用効率の高いオープンソース報酬モデルを提案する。
論文 参考訳(メタデータ) (2026-01-16T15:32:58Z) - Navigating Ideation Space: Decomposed Conceptual Representations for Positioning Scientific Ideas [35.25560221100292]
新しいアイデアは、既存の知識の絶え間なく拡大しているランドスケープの中に配置する必要がある。
現在の埋め込みアプローチは、異なる概念的側面を単一の表現に分割する。
科学的知識を3つの異なる次元に分解する構造化表現である観念空間を導入する。
論文 参考訳(メタデータ) (2026-01-13T18:56:11Z) - ScholarEval: Research Idea Evaluation Grounded in Literature [18.31628500009905]
ScholarEvalは2つの基本的な基準に基づいて研究アイデアを評価する検索強化評価フレームワークである。
ScholarEvalを評価するために、ScholarIdeasを紹介します。
以上の結果から,ScholarEvalは,ScholarIdeasのアノテートルーリックに言及される点を,すべての基線に比べてはるかに高い範囲でカバーできることが示唆された。
論文 参考訳(メタデータ) (2025-10-17T21:55:07Z) - OpenReview Should be Protected and Leveraged as a Community Asset for Research in the Era of Large Language Models [55.21589313404023]
OpenReviewは、研究論文、ピアレビュー、著者の反論、メタレビュー、決定結果の継続的な進化を続けるリポジトリである。
OpenReviewは、ピアレビュープロセスの品質、スケーラビリティ、説明責任の向上、真に専門家の議論に根ざした有意義でオープンなベンチマークの実現、専門家の評価、意図、科学的価値を反映した現実世界のインタラクションによるアライメント研究の支援という、ユニークな貢献が可能な3つの領域を強調します。
コミュニティは、OpenReviewに関する標準化されたベンチマークと利用ガイドラインを共同で検討し、責任あるデータの使用、倫理的考慮、集団スチュワードシップに関するより広範な対話を招待することを提案します。
論文 参考訳(メタデータ) (2025-05-24T09:07:13Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Evaluatology: The Science and Engineering of Evaluation [11.997673313601423]
本稿では,評価の科学と工学を包含する評価学の分野を正式に紹介することを目的とする。
本稿では,様々な分野にまたがって適用可能な概念,用語,理論,方法論を包含して評価するための普遍的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-19T13:38:26Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。