論文の概要: Rethinking Scientific Summarization Evaluation: Grounding Explainable
Metrics on Facet-aware Benchmark
- arxiv url: http://arxiv.org/abs/2402.14359v1
- Date: Thu, 22 Feb 2024 07:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:05:14.596315
- Title: Rethinking Scientific Summarization Evaluation: Grounding Explainable
Metrics on Facet-aware Benchmark
- Title(参考訳): 科学的要約評価を再考する:Facet-awareベンチマークによる説明可能なメトリクスのグラウンディング
- Authors: Xiuying Chen, Tairan Wang, Qingqing Zhu, Taicheng Guo, Shen Gao,
Zhiyong Lu, Xin Gao, Xiangliang Zhang
- Abstract要約: 本稿では,科学的要約の概念的および実験的分析について述べる。
要約を評価するために,先進的なセマンティックマッチングにLLMを用いたFacet-Aware Metric (FM)を導入する。
以上の結果から,FMは科学的要約を評価するためのより論理的なアプローチであることが明らかとなった。
- 参考スコア(独自算出の注目度): 43.94573037950725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The summarization capabilities of pretrained and large language models (LLMs)
have been widely validated in general areas, but their use in scientific
corpus, which involves complex sentences and specialized knowledge, has been
less assessed. This paper presents conceptual and experimental analyses of
scientific summarization, highlighting the inadequacies of traditional
evaluation methods, such as $n$-gram, embedding comparison, and QA,
particularly in providing explanations, grasping scientific concepts, or
identifying key content. Subsequently, we introduce the Facet-aware Metric
(FM), employing LLMs for advanced semantic matching to evaluate summaries based
on different aspects. This facet-aware approach offers a thorough evaluation of
abstracts by decomposing the evaluation task into simpler subtasks.Recognizing
the absence of an evaluation benchmark in this domain, we curate a Facet-based
scientific summarization Dataset (FD) with facet-level annotations. Our
findings confirm that FM offers a more logical approach to evaluating
scientific summaries. In addition, fine-tuned smaller models can compete with
LLMs in scientific contexts, while LLMs have limitations in learning from
in-context information in scientific domains. This suggests an area for future
enhancement of LLMs.
- Abstract(参考訳): 事前訓練および大規模言語モデル(LLM)の要約能力は、一般に広く評価されているが、複雑な文や専門知識を含む科学コーパスでの使用は、あまり評価されていない。
本稿では,n$-gramや組込み比較,QAといった従来の評価手法の欠如,特に説明の提供,科学的概念の把握,キー内容の特定など,科学的要約に関する概念的および実験的分析について述べる。
次に,高度な意味マッチングのためのllmsを用いて,異なる側面に基づく要約を評価するファセットアウェアメトリック(fm)を紹介する。
このファセット認識アプローチは,評価タスクを単純なサブタスクに分解して抽象化を徹底的に評価する手法であり,評価ベンチマークが存在しないことを認識して,ファセットレベルのアノテーションを用いたFacetベースの科学的要約データセット(FD)をキュレートする。
その結果,FMは科学的な要約を評価するための論理的なアプローチであることがわかった。
加えて、微調整された小さなモデルは科学的な文脈でLLMと競合するが、LSMは科学領域における文脈内情報から学習する際の制限がある。
これは将来のllmの強化の領域を示唆する。
関連論文リスト
- Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph [18.41743815836192]
本稿では,構造化科学要約のプロパティを自動提案するために,Large Language Models (LLMs) を提案する。
本研究は,ORKGが手作業でキュレートした特性と,前述の最先端のLCMによって生成された特性とを総合的に比較した。
全体として、LLMは科学を構造化するためのレコメンデーションシステムとしての可能性を示しているが、科学的タスクや人間の専門知識の模倣との整合性を改善するために、さらなる微調整が推奨されている。
論文 参考訳(メタデータ) (2024-05-03T14:03:04Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - Quantitative knowledge retrieval from large language models [4.155711233354597]
大規模言語モデル(LLM)は、説得力のある自然言語配列を生成する能力について広く研究されている。
本稿では,データ解析作業を支援するための定量的知識検索のメカニズムとして,LLMの実現可能性について検討する。
論文 参考訳(メタデータ) (2024-02-12T16:32:37Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Leveraging Large Language Models for NLG Evaluation: A Survey [56.21534358429998]
LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。
この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z) - SciEval: A Multi-Level Large Language Model Evaluation Benchmark for
Scientific Research [12.325362762629782]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
論文 参考訳(メタデータ) (2023-08-25T03:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。