Fugu-MT 論文翻訳(概要): Rethinking Scientific Summarization Evaluation: Grounding Explainable Metrics on Facet-aware Benchmark

論文の概要: Rethinking Scientific Summarization Evaluation: Grounding Explainable Metrics on Facet-aware Benchmark

arxiv url: http://arxiv.org/abs/2402.14359v1
Date: Thu, 22 Feb 2024 07:58:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 16:05:14.596315
Title: Rethinking Scientific Summarization Evaluation: Grounding Explainable Metrics on Facet-aware Benchmark
Title（参考訳）: 科学的要約評価を再考する:Facet-awareベンチマークによる説明可能なメトリクスのグラウンディング
Authors: Xiuying Chen, Tairan Wang, Qingqing Zhu, Taicheng Guo, Shen Gao, Zhiyong Lu, Xin Gao, Xiangliang Zhang
Abstract要約: 本稿では,科学的要約の概念的および実験的分析について述べる。要約を評価するために,先進的なセマンティックマッチングにLLMを用いたFacet-Aware Metric (FM)を導入する。以上の結果から,FMは科学的要約を評価するためのより論理的なアプローチであることが明らかとなった。
参考スコア（独自算出の注目度）: 43.94573037950725
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The summarization capabilities of pretrained and large language models (LLMs) have been widely validated in general areas, but their use in scientific corpus, which involves complex sentences and specialized knowledge, has been less assessed. This paper presents conceptual and experimental analyses of scientific summarization, highlighting the inadequacies of traditional evaluation methods, such as $n$-gram, embedding comparison, and QA, particularly in providing explanations, grasping scientific concepts, or identifying key content. Subsequently, we introduce the Facet-aware Metric (FM), employing LLMs for advanced semantic matching to evaluate summaries based on different aspects. This facet-aware approach offers a thorough evaluation of abstracts by decomposing the evaluation task into simpler subtasks.Recognizing the absence of an evaluation benchmark in this domain, we curate a Facet-based scientific summarization Dataset (FD) with facet-level annotations. Our findings confirm that FM offers a more logical approach to evaluating scientific summaries. In addition, fine-tuned smaller models can compete with LLMs in scientific contexts, while LLMs have limitations in learning from in-context information in scientific domains. This suggests an area for future enhancement of LLMs.
Abstract（参考訳）: 事前訓練および大規模言語モデル(LLM)の要約能力は、一般に広く評価されているが、複雑な文や専門知識を含む科学コーパスでの使用は、あまり評価されていない。本稿では,n$-gramや組込み比較,QAといった従来の評価手法の欠如,特に説明の提供,科学的概念の把握,キー内容の特定など,科学的要約に関する概念的および実験的分析について述べる。次に,高度な意味マッチングのためのllmsを用いて,異なる側面に基づく要約を評価するファセットアウェアメトリック(fm)を紹介する。このファセット認識アプローチは,評価タスクを単純なサブタスクに分解して抽象化を徹底的に評価する手法であり,評価ベンチマークが存在しないことを認識して,ファセットレベルのアノテーションを用いたFacetベースの科学的要約データセット(FD)をキュレートする。その結果,FMは科学的な要約を評価するための論理的なアプローチであることがわかった。加えて、微調整された小さなモデルは科学的な文脈でLLMと競合するが、LSMは科学領域における文脈内情報から学習する際の制限がある。これは将来のllmの強化の領域を示唆する。

関連論文リスト

Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文参考訳（メタデータ） (2024-06-13T13:27:52Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph [18.41743815836192]
本稿では,構造化科学要約のプロパティを自動提案するために,Large Language Models (LLMs) を提案する。本研究は,ORKGが手作業でキュレートした特性と,前述の最先端のLCMによって生成された特性とを総合的に比較した。全体として、LLMは科学を構造化するためのレコメンデーションシステムとしての可能性を示しているが、科学的タスクや人間の専門知識の模倣との整合性を改善するために、さらなる微調整が推奨されている。
論文参考訳（メタデータ） (2024-05-03T14:03:04Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis [26.111514038691837]
SciAssessは、科学文献分析におけるLarge Language Models(LLM)の総合的な評価のためのベンチマークである。記憶機能評価(L1)、記憶機能評価(L2)、分析・推論機能評価(L3)により,LLMの有効性を徹底的に評価することを目的とする。それは、生物学、化学、材料、医学など、様々な科学分野から引き出された様々なタスクを含んでいる。
論文参考訳（メタデータ） (2024-03-04T12:19:28Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。主観的質問も主観的質問もSciEvalに含まれる。
論文参考訳（メタデータ） (2023-08-25T03:05:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。