論文の概要: Literature-Grounded Novelty Assessment of Scientific Ideas
- arxiv url: http://arxiv.org/abs/2506.22026v1
- Date: Fri, 27 Jun 2025 08:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.144561
- Title: Literature-Grounded Novelty Assessment of Scientific Ideas
- Title(参考訳): 文学を中心とした科学思想のノベルティ評価
- Authors: Simra Shahid, Marissa Radensky, Raymond Fok, Pao Siangliulue, Daniel S. Weld, Tom Hope,
- Abstract要約: LLMに基づく検索拡張生成フレームワークであるIdean Novelty Checkerを提案する。
実験の結果,新規性チェッカーは既存手法よりも約13%高い一致を達成できた。
- 参考スコア(独自算出の注目度): 23.481266336046833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated scientific idea generation systems have made remarkable progress, yet the automatic evaluation of idea novelty remains a critical and underexplored challenge. Manual evaluation of novelty through literature review is labor-intensive, prone to error due to subjectivity, and impractical at scale. To address these issues, we propose the Idea Novelty Checker, an LLM-based retrieval-augmented generation (RAG) framework that leverages a two-stage retrieve-then-rerank approach. The Idea Novelty Checker first collects a broad set of relevant papers using keyword and snippet-based retrieval, then refines this collection through embedding-based filtering followed by facet-based LLM re-ranking. It incorporates expert-labeled examples to guide the system in comparing papers for novelty evaluation and in generating literature-grounded reasoning. Our extensive experiments demonstrate that our novelty checker achieves approximately 13% higher agreement than existing approaches. Ablation studies further showcases the importance of the facet-based re-ranker in identifying the most relevant literature for novelty evaluation.
- Abstract(参考訳): 自動科学的アイデア生成システムは目覚ましい進歩を遂げているが、アイデアの新規性の自動評価は、批判的で未発見の課題である。
文献レビューによる新規性のマニュアル評価は、労働集約的であり、主観性による誤りの傾向があり、スケールにおいて非現実的である。
これらの問題に対処するために,2段階の検索-then-rerankアプローチを活用したLLMベースの検索-拡張生成(RAG)フレームワークであるIdean Novelty Checkerを提案する。
Idea Novelty Checkerは、キーワードとスニペットベースの検索を使用して、関連論文の幅広い集合を収集し、埋め込みベースのフィルタリングとファセットベースのLLMの再ランク付けによって、このコレクションを洗練する。
ノベルティ評価のための論文の比較や、文学的根拠に基づく推論の生成において、エキスパートラベルの例を取り入れたシステムである。
実験の結果,新規性チェッカーは既存手法よりも約13%高い一致を達成できた。
アブレーション研究は、新規性評価において最も関連性の高い文献を識別する上で、ファセットベースのリランカの重要性をさらに示している。
関連論文リスト
- From Replication to Redesign: Exploring Pairwise Comparisons for LLM-Based Peer Review [11.761671590108406]
原稿間の相互比較を行うために,LLMエージェントを用いた新しいメカニズムを導入,検討する。
この比較手法は, 従来の評価に基づく手法よりも, 高インパクト論文の同定に優れることを示した。
論文 参考訳(メタデータ) (2025-06-12T22:27:20Z) - Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition [2.048226951354646]
大規模言語モデル(LLM)は、文学レビューを書くことに関わる複雑なプロセスを自動化するための潜在的な解決策として登場した。
本研究は,文学書記の3つの重要な課題において,LLMの性能を自動評価する枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-18T08:42:25Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Chain of Ideas: Revolutionizing Research Via Novel Idea Development with LLM Agents [64.64280477958283]
科学文献の急激な増加は、研究者が最近の進歩と意義ある研究方向を見極めるのを困難にしている。
大規模言語モデル(LLM)の最近の発展は、新しい研究のアイデアを自動生成するための有望な道のりを示唆している。
本研究では, チェーン構造に関連文献を整理し, 研究領域の進展を効果的に反映する, LLMベースのエージェントであるChain-of-Ideas(CoI)エージェントを提案する。
論文 参考訳(メタデータ) (2024-10-17T03:26:37Z) - Evaluating and Enhancing Large Language Models for Novelty Assessment in Scholarly Publications [12.183473842592567]
学術論文において,大規模言語モデルの新規性を評価する能力を評価するために,学術ノベルティベンチマーク(SchNovel)を導入する。
SchNovelは、arXivデータセットからサンプリングされた6つのフィールドにわたる15,000の論文からなる。
RAG-Noveltyは、類似論文の検索を利用して、人間レビュアーによるレビュープロセスをシミュレートし、新規性を評価する。
論文 参考訳(メタデータ) (2024-09-25T04:12:38Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - $T^5Score$: A Methodology for Automatically Assessing the Quality of LLM Generated Multi-Document Topic Sets [16.516381474175986]
本稿では,トピックの品質を定量的な側面に分解する評価手法である$T5Scoreを紹介する。
このフレーミングは、強力なアノテーション間合意スコアをもたらす便利な、手動または自動的な評価手順を可能にする。
論文 参考訳(メタデータ) (2024-07-24T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。