論文の概要: LCFO: Long Context and Long Form Output Dataset and Benchmarking
- arxiv url: http://arxiv.org/abs/2412.08268v1
- Date: Wed, 11 Dec 2024 10:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:56.624121
- Title: LCFO: Long Context and Long Form Output Dataset and Benchmarking
- Title(参考訳): LCFO:ロングコンテキストとロングフォーム出力データセットとベンチマーク
- Authors: Marta R. Costa-jussà, Pierre Andrews, Mariano Coria Meglioli, Joy Chen, Joe Chuang, David Dale, Christophe Ropers, Alexandre Mourachko, Eduardo Sánchez, Holger Schwenk, Tuan Tran, Arina Turkatenko, Carleigh Wood,
- Abstract要約: LCFO(Long Context and Form Output)ベンチマークは、要約および要約拡張能力を評価するための評価フレームワークである。
LCFOは、長さの異なる3つの要約を持つ長い入力文書(平均長5k語)から構成される。
GPT-4o-miniは、要約および要約拡張タスクの両方において、自動システムの中で最高の人点を達成している。
- 参考スコア(独自算出の注目度): 50.44679440167169
- License:
- Abstract: This paper presents the Long Context and Form Output (LCFO) benchmark, a novel evaluation framework for assessing gradual summarization and summary expansion capabilities across diverse domains. LCFO consists of long input documents (5k words average length), each of which comes with three summaries of different lengths (20%, 10%, and 5% of the input text), as well as approximately 15 questions and answers (QA) related to the input content. Notably, LCFO also provides alignments between specific QA pairs and corresponding summaries in 7 domains. The primary motivation behind providing summaries of different lengths is to establish a controllable framework for generating long texts from shorter inputs, i.e. summary expansion. To establish an evaluation metric framework for summarization and summary expansion, we provide human evaluation scores for human-generated outputs, as well as results from various state-of-the-art large language models (LLMs). GPT-4o-mini achieves best human scores among automatic systems in both summarization and summary expansion tasks (~ +10% and +20%, respectively). It even surpasses human output quality in the case of short summaries (~ +7%). Overall automatic metrics achieve low correlations with human evaluation scores (~ 0.4) but moderate correlation on specific evaluation aspects such as fluency and attribution (~ 0.6). The LCFO benchmark offers a standardized platform for evaluating summarization and summary expansion performance, as well as corresponding automatic metrics, thereby providing an important evaluation framework to advance generative AI.
- Abstract(参考訳): 本稿では,様々な領域にまたがる漸進的な要約と要約拡張能力を評価するための新しい評価フレームワークであるLCFOベンチマークを提案する。
LCFOは、長い入力文書(平均長5k語)で構成され、それぞれ異なる長さの3つの要約(20%、10%、5%)と、入力内容に関連する約15の質問と回答(QA)で構成されている。
特にLCFOは、7つのドメインで特定のQAペアと対応するサマリーのアライメントも提供する。
異なる長さの要約を提供する主な動機は、短い入力から長いテキストを生成するための制御可能なフレームワークを確立することである。
要約および要約拡張のための評価指標の枠組みを確立するため,人為的出力の評価スコアと,様々な最先端の大規模言語モデル(LLM)の結果を提供する。
GPT-4o-miniは、要約および要約拡張タスク(それぞれ約+10%と+20%)において、自動システムの中で最高の人点を達成している。
短い要約(~+7%)の場合、人間の出力品質を超えます。
総合的な自動測定は、人間の評価スコア(約0.4)と低い相関性を達成するが、フルーエンシや属性(約0.6)といった特定の評価側面では適度な相関性が得られる。
LCFOベンチマークは、要約と要約拡張性能を評価するための標準化されたプラットフォームと、対応する自動メトリクスを提供し、生成AIを前進させるための重要な評価フレームワークを提供する。
関連論文リスト
- A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - FFCI: A Framework for Interpretable Automatic Evaluation of
Summarization [43.375797352517765]
本稿では,精細な要約評価のためのフレームワークであるFFCIを提案する。
我々は、焦点、カバレッジ、相互一貫性のための新しいデータセットを構築した。
開発したメトリクスを2つのデータセットにわたる広範囲の要約モデルの評価に適用する。
論文 参考訳(メタデータ) (2020-11-27T10:57:18Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。