論文の概要: Evaluating and Enhancing Large Language Models for Novelty Assessment in Scholarly Publications
- arxiv url: http://arxiv.org/abs/2409.16605v1
- Date: Wed, 25 Sep 2024 04:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 05:35:28.546368
- Title: Evaluating and Enhancing Large Language Models for Novelty Assessment in Scholarly Publications
- Title(参考訳): 学術論文のノベルティ評価のための大規模言語モデルの評価と強化
- Authors: Ethan Lin, Zhiyuan Peng, Yi Fang,
- Abstract要約: 学術論文において,大規模言語モデルの新規性を評価する能力を評価するために,学術ノベルティベンチマーク(SchNovel)を導入する。
SchNovelは、arXivデータセットからサンプリングされた6つのフィールドにわたる15,000の論文からなる。
RAG-Noveltyは、類似論文の検索を利用して、人間レビュアーによるレビュープロセスをシミュレートし、新規性を評価する。
- 参考スコア(独自算出の注目度): 12.183473842592567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have evaluated the creativity/novelty of large language models (LLMs) primarily from a semantic perspective, using benchmarks from cognitive science. However, accessing the novelty in scholarly publications is a largely unexplored area in evaluating LLMs. In this paper, we introduce a scholarly novelty benchmark (SchNovel) to evaluate LLMs' ability to assess novelty in scholarly papers. SchNovel consists of 15000 pairs of papers across six fields sampled from the arXiv dataset with publication dates spanning 2 to 10 years apart. In each pair, the more recently published paper is assumed to be more novel. Additionally, we propose RAG-Novelty, which simulates the review process taken by human reviewers by leveraging the retrieval of similar papers to assess novelty. Extensive experiments provide insights into the capabilities of different LLMs to assess novelty and demonstrate that RAG-Novelty outperforms recent baseline models.
- Abstract(参考訳): 近年の研究では、認知科学のベンチマークを用いて、大言語モデル(LLM)の創造性とノベルティを意味論的観点から評価している。
しかし、学術出版物でノベルティにアクセスすることは、LSMを評価する上では、ほとんど探索されていない領域である。
本稿では,学術論文のノベルティ評価能力を評価するために,学術ノベルティベンチマーク(SchNovel)を導入する。
SchNovelは、arXivデータセットからサンプリングされた6つのフィールドにわたる15,000の論文からなる。
それぞれにおいて、最近発表された論文はより斬新なものであると仮定される。
さらに, 類似論文の検索を利用して, レビュープロセスのシミュレーションを行うRAG-Noveltyを提案する。
RAG-Noveltyが最近のベースラインモデルより優れていることを示す。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - MERA: A Comprehensive LLM Evaluation in Russian [43.02318109348788]
基礎モデルを評価するために,ロシア語アーキテクチャ(MERA)ベンチマークのオープンなマルチモーダル評価を導入する。
ベンチマークには、11のスキルドメインで生成モデルを評価する21のタスクが含まれている。
本稿では,評価手法,MERA評価のためのオープンソースコードベース,提案システムを備えたリーダボードを提案する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - Expanding Horizons in HCI Research Through LLM-Driven Qualitative
Analysis [3.5253513747455303]
大規模言語モデル(LLM)を用いたHCIにおける定性解析の新しいアプローチを提案する。
以上の結果から,LSMは従来の解析手法と一致しただけでなく,ユニークな知見も得られることが示唆された。
論文 参考訳(メタデータ) (2024-01-07T12:39:31Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。