論文の概要: Automatic Evaluation Metrics for Artificially Generated Scientific Research
- arxiv url: http://arxiv.org/abs/2503.05712v1
- Date: Fri, 14 Feb 2025 14:56:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 10:18:22.838166
- Title: Automatic Evaluation Metrics for Artificially Generated Scientific Research
- Title(参考訳): 人工科学研究のための自動評価基準
- Authors: Niklas Höpner, Leon Eshuijs, Dimitrios Alivanistos, Giacomo Zamprogno, Ilaria Tiddi,
- Abstract要約: 本研究では,2つの自動評価指標,特に引用数予測とレビュースコア予測について検討する。
本研究の結果から, 引用数予測はレビュースコア予測よりも有効であり, 完全論文より純粋にスコア予測が困難であることが判明した。
- 参考スコア(独自算出の注目度): 3.9845810840390743
- License:
- Abstract: Foundation models are increasingly used in scientific research, but evaluating AI-generated scientific work remains challenging. While expert reviews are costly, large language models (LLMs) as proxy reviewers have proven to be unreliable. To address this, we investigate two automatic evaluation metrics, specifically citation count prediction and review score prediction. We parse all papers of OpenReview and augment each submission with its citation count, reference, and research hypothesis. Our findings reveal that citation count prediction is more viable than review score prediction, and predicting scores is more difficult purely from the research hypothesis than from the full paper. Furthermore, we show that a simple prediction model based solely on title and abstract outperforms LLM-based reviewers, though it still falls short of human-level consistency.
- Abstract(参考訳): 基礎モデルは科学研究にますます使われているが、AIによる科学的研究を評価することは依然として困難である。
専門家によるレビューはコストがかかるが、プロキシレビュアとしての大規模言語モデル(LLM)は信頼性が低いことが証明されている。
そこで本研究では,2つの自動評価指標,特に引用数予測とレビュースコア予測について検討する。
我々はOpenReviewの全論文を解析し、各論文を引用数、参照数、研究仮説で拡張する。
本研究の結果から, 引用数予測はレビュースコア予測よりも有効であり, 完全論文より純粋にスコア予測が困難であることが判明した。
さらに,タイトルと抽象的な表現のみに基づく単純な予測モデルは,人間レベルの一貫性に欠けるものの,LLMベースのレビュアーよりも優れていることを示す。
関連論文リスト
- Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。
まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。
本稿では,実証的リスク最小化法(DEM)を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Generative Adversarial Reviews: When LLMs Become the Critic [1.2430809884830318]
本稿では,LLMを利用したエージェントを利用して,忠実なピアレビュアーをシミュレートするジェネレーティブエージェントレビュアー(GAR)を紹介する。
このアプローチの中心は、グラフベースの原稿表現であり、コンテンツを凝縮し、情報を論理的に整理する。
本実験は,GARが人間レビュアーに対して,詳細なフィードバックと論文結果の予測を行う上で,相容れない性能を示すことを示した。
論文 参考訳(メタデータ) (2024-12-09T06:58:17Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Deep Transfer Learning Based Peer Review Aggregation and Meta-review Generation for Scientific Articles [2.0778556166772986]
論文の受理決定とメタレビュー生成という2つのピアレビューアグリゲーション課題に対処する。
まず,従来の機械学習アルゴリズムを適用し,受理決定のプロセスを自動化することを提案する。
メタレビュー生成では,T5モデルに基づく移動学習モデルを提案する。
論文 参考訳(メタデータ) (2024-10-05T15:40:37Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer
Review [4.081120388114928]
サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。
本稿では、ピアレビューの聖杯に触れ、学術的セキュリティカンファレンスのレビューにおけるAIのパフォーマンスについて光を当てることを目的としている。
本研究では,人間レビュアーと機械学習モデルから得られた結果を比較し,評価結果の予測可能性について検討する。
論文 参考訳(メタデータ) (2023-09-11T13:51:40Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Scientific Opinion Summarization: Paper Meta-review Generation Dataset, Methods, and Evaluation [55.00687185394986]
本稿では,論文レビューをメタレビューに合成する,科学的意見要約の課題を提案する。
ORSUMデータセットは、47のカンファレンスから15,062のメタレビューと57,536の論文レビューをカバーしている。
実験の結果,(1)人間による要約は,議論の深みや特定の領域に対するコンセンサスや論争の特定など,必要な基準をすべて満たしていないこと,(2)タスクの分解と反復的自己調整の組み合わせは,意見の強化に強い可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-24T02:33:35Z) - MOPRD: A multidisciplinary open peer review dataset [12.808751859133064]
オープン・ピア・レビューは学術出版物で増加傾向にある。
既存のピアレビューデータセットのほとんどは、ピアレビュープロセス全体をカバーするデータを提供していません。
複数分野のオープンピアレビューデータセットMOPRDを構築した。
論文 参考訳(メタデータ) (2022-12-09T16:35:14Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。