論文の概要: Large Language Models as Evaluators for Scientific Synthesis
- arxiv url: http://arxiv.org/abs/2407.02977v1
- Date: Wed, 3 Jul 2024 10:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:45:33.552074
- Title: Large Language Models as Evaluators for Scientific Synthesis
- Title(参考訳): 科学合成のための評価指標としての大規模言語モデル
- Authors: Julia Evans, Jennifer D'Souza, Sören Auer,
- Abstract要約: 我々は,5つの関連論文の要約から,GPT-4による100の質問とそれらの合成のデータセットを用いて,人間の品質評価を検証した。
予備的な結果から、LLMは品質評価に幾らか適合する論理的説明を提供することができるが、より深い統計分析により、LLMと人間の評価との間には弱い相関関係が示されている。
- 参考スコア(独自算出の注目度): 0.16385815610837165
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Our study explores how well the state-of-the-art Large Language Models (LLMs), like GPT-4 and Mistral, can assess the quality of scientific summaries or, more fittingly, scientific syntheses, comparing their evaluations to those of human annotators. We used a dataset of 100 research questions and their syntheses made by GPT-4 from abstracts of five related papers, checked against human quality ratings. The study evaluates both the closed-source GPT-4 and the open-source Mistral model's ability to rate these summaries and provide reasons for their judgments. Preliminary results show that LLMs can offer logical explanations that somewhat match the quality ratings, yet a deeper statistical analysis shows a weak correlation between LLM and human ratings, suggesting the potential and current limitations of LLMs in scientific synthesis evaluation.
- Abstract(参考訳): GPT-4やMistralのような最先端のLarge Language Model(LLMs)が、科学的要約の質や、より適切な科学合成の質を評価し、それらの評価を人間のアノテーションと比較する。
我々は,5つの関連論文の要約から,GPT-4による100の質問とそれらの合成のデータセットを用いて,人間の品質評価を検証した。
本研究は、オープンソースGPT-4とオープンソースのMistralモデルの両方で、これらの要約を評価し、その判断の理由を提示する能力を評価する。
予備的な結果は、LLMが品質評価に幾らか適合する論理的説明を提供することができることを示しているが、より深い統計分析により、LLMと人間の評価との間には弱い相関関係が見られ、科学合成評価におけるLLMの可能性と現在の限界が示唆されている。
関連論文リスト
- LLMs4Synthesis: Leveraging Large Language Models for Scientific Synthesis [0.16385815610837165]
本稿では,LLMs4Synthesisフレームワークについて紹介する。
オープンソースとプロプライエタリなLLMの両方を活用しながら、迅速で一貫性があり、文脈的にリッチな科学的洞察の統合の必要性に対処する。
論文 参考訳(メタデータ) (2024-09-27T15:04:39Z) - LLMs as Evaluators: A Novel Approach to Evaluate Bug Report Summarization [9.364214238045317]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示した。
本研究では,LSMがバグレポートの要約を効果的に評価できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-01T06:30:39Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - Rethinking Scientific Summarization Evaluation: Grounding Explainable
Metrics on Facet-aware Benchmark [43.94573037950725]
本稿では,科学的要約の概念的および実験的分析について述べる。
要約を評価するために,先進的なセマンティックマッチングにLLMを用いたFacet-Aware Metric (FM)を導入する。
以上の結果から,FMは科学的要約を評価するためのより論理的なアプローチであることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T07:58:29Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
論文 参考訳(メタデータ) (2023-08-25T03:05:33Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。