Fugu-MT 論文翻訳(概要): FineSurE: Fine-grained Summarization Evaluation using LLMs

論文の概要: FineSurE: Fine-grained Summarization Evaluation using LLMs

arxiv url: http://arxiv.org/abs/2407.00908v1
Date: Mon, 1 Jul 2024 02:20:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 01:07:34.823773
Title: FineSurE: Fine-grained Summarization Evaluation using LLMs
Title（参考訳）: FineSurE: LLMを用いた微粒化評価
Authors: Hwanjun Song, Hang Su, Igor Shalyminov, Jason Cai, Saab Mansour,
Abstract要約: FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
参考スコア（独自算出の注目度）: 22.62504593575933
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated evaluation is crucial for streamlining text summarization benchmarking and model development, given the costly and time-consuming nature of human evaluation. Traditional methods like ROUGE do not correlate well with human judgment, while recently proposed LLM-based metrics provide only summary-level assessment using Likert-scale scores. This limits deeper model analysis, e.g., we can only assign one hallucination score at the summary level, while at the sentence level, we can count sentences containing hallucinations. To remedy those limitations, we propose FineSurE, a fine-grained evaluator specifically tailored for the summarization task using large language models (LLMs). It also employs completeness and conciseness criteria, in addition to faithfulness, enabling multi-dimensional assessment. We compare various open-source and proprietary LLMs as backbones for FineSurE. In addition, we conduct extensive benchmarking of FineSurE against SOTA methods including NLI-, QA-, and LLM-based methods, showing improved performance especially on the completeness and conciseness dimensions. The code is available at https://github.com/DISL-Lab/FineSurE-ACL24.
Abstract（参考訳）: テキスト要約ベンチマークとモデル開発の合理化には自動評価が不可欠である。 ROUGEのような従来の手法は人間の判断とよく相関しないが、最近提案されたLCMベースのメトリクスは、Likertスケールスコアを用いた要約レベルの評価のみを提供する。これは、例えば、1つの幻覚スコアを要約レベルで割り当てることしかできず、文レベルでは幻覚を含む文を数えることができる。この制限を緩和するために,大言語モデル (LLM) を用いた要約タスクに適した細粒度評価器である FineSurE を提案する。また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。オープンソースとプロプライエタリなLLMをFineSurEのバックボーンとして比較する。さらに,NLI法,QA法,LLM法などのSOTA法に対して,FinSurEの広範囲なベンチマークを行い,特に完全性および簡潔性に関する性能向上を示す。コードはhttps://github.com/DISL-Lab/FineSurE-ACL24で公開されている。

関連論文リスト

MermaidSeqBench: An Evaluation Benchmark for LLM-to-Mermaid Sequence Diagram Generation [1.1369235139211635]
大規模言語モデル(LLM)は、自然言語記述から構造化図を生成する優れた能力を示した。本稿では,テキストプロンプトからMermaidシーケンス図を生成するLLMの能力を評価するベンチマークであるMermaidSeqBenchを紹介する。 LLM-as-a-judgeモデルを用いて,文法の正確性,アクティベーションハンドリング,エラーハンドリング,実用的ユーザビリティなど,詳細なメトリクス間でのマーメイドシーケンスダイアグラムの生成を評価する。
論文参考訳（メタデータ） (2025-11-18T23:14:44Z)
Enhancing Rating Prediction with Off-the-Shelf LLMs Using In-Context User Reviews [16.394933051332657]
等級評価予測は、言語と数学的推論の両方を効果的に解く必要がある回帰タスクである。本研究では,市販LCMの性能を評価予測に用い,異なるコンテキスト情報を提供する。ユーザによるレビューでは,LCMのレーティング予測性能が大幅に向上していることがわかった。
論文参考訳（メタデータ） (2025-10-01T03:04:20Z)
Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge [7.064104563689608]
大規模言語モデル (LLM) は, 生物医学的関係抽出において顕著な性能を示した。本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
論文参考訳（メタデータ） (2025-06-01T02:01:52Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models [7.529095331830944]
大規模言語モデル(LLM)を評価するための現在のベンチマークでは、コンテンツ制限の評価、不適切な更新、最適化ガイダンスの欠如などの問題がある。本稿では,LLMのベンチマーク評価評価のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-07-10T10:42:02Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks [12.629516072317331]
Syntax-Aware Fill-in-the-Middle (SAFIM)は、コードFill-in-the-Middle(FIM)タスク上でLLM(Large Language Models)を評価するための新しいベンチマークである。このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てている。
論文参考訳（メタデータ） (2024-03-07T05:05:56Z)
PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文参考訳（メタデータ） (2024-02-02T18:49:26Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文参考訳（メタデータ） (2023-09-18T08:13:01Z)
Element-aware Summarization with Large Language Models: Expert-aligned Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。 CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文参考訳（メタデータ） (2023-05-22T18:54:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。