論文の概要: Large Language Models are Diverse Role-Players for Summarization
Evaluation
- arxiv url: http://arxiv.org/abs/2303.15078v3
- Date: Tue, 19 Sep 2023 10:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 19:58:15.553145
- Title: Large Language Models are Diverse Role-Players for Summarization
Evaluation
- Title(参考訳): 大言語モデルは要約評価のための多言語ロールプレーヤである
- Authors: Ning Wu, Ming Gong, Linjun Shou, Shining Liang, Daxin Jiang
- Abstract要約: 文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 82.31575622685902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text summarization has a wide range of applications in many scenarios. The
evaluation of the quality of the generated text is a complex problem. A big
challenge to language evaluation is that there is a clear divergence between
existing metrics and human evaluation. A document summary's quality can be
assessed by human annotators on various criteria, both objective ones like
grammar and correctness, and subjective ones like informativeness,
succinctness, and appeal. Most of the automatic evaluation methods like
BLUE/ROUGE may be not able to adequately capture the above dimensions. In this
paper, we propose a new evaluation framework based on LLMs, which provides a
comprehensive evaluation framework by comparing generated text and reference
text from both objective and subjective aspects. First, we propose to model
objective and subjective dimensions of generated text based on roleplayers
prompting mechanism. Furthermore, we introduce a context-based prompting
mechanism that is able to generate dynamic roleplayer profiles based on input
context. Finally, we design a multi-roleplayer prompting technology based on
batch prompting and integrate multiple outputs into the final evaluation
results. Experimental results on three real datasets for summarization show
that our model is highly competitive and has a very high consistency with human
annotators.
- Abstract(参考訳): テキスト要約は多くのシナリオにおいて幅広い応用がある。
生成されたテキストの品質評価は複雑な問題である。
言語評価に対する大きな課題は、既存のメトリクスと人的評価の間に明確な相違があることである。
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
本稿では,目的と主観の両方から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するllmsに基づく新しい評価フレームワークを提案する。
まず,ロールプレイヤのプロンプト機構に基づいて,生成したテキストの客観的次元と主観次元をモデル化する。
さらに、入力コンテキストに基づいて動的ロールプレイヤプロファイルを生成することができるコンテキストベースのプロンプト機構を導入する。
最後に,バッチプロンプトに基づくマルチロールプレーヤを設計し,最終的な評価結果に複数の出力を統合する。
要約のための3つの実データセットの実験結果から,本モデルは非常に競争力が高く,アノテータとの整合性が高いことが示された。
関連論文リスト
- PROXYQA: An Alternative Framework for Evaluating Long-Form Text
Generation with Large Language Models [74.73330587411532]
大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。
現在のベンチマークでは、情報的かつ包括的なコンテンツを生成するLLMの能力は十分に評価されていない。
長文テキスト生成を評価するフレームワークであるtextsc ProxyQA を紹介する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - GUMSum: Multi-Genre Data and Evaluation for English Abstractive
Summarization [10.609715843964263]
事前学習された言語モデルによる自動要約は、驚くほど流動的な結果をもたらすが、"幻覚"の傾向にある。
GUMSumは、抽象的な要約を評価するために、12の言語ジャンルで書かれた英語の要約のデータセットである。
論文 参考訳(メタデータ) (2023-06-20T03:21:10Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Transformer Models for Text Coherence Assessment [14.132559978971377]
コヒーレンス(coherence)は、テキストの品質の重要な側面であり、その可読性を保証するために不可欠である。
これまでの研究は、エンティティベースの手法、構文パターン、談話関係、最近ではテキストコヒーレンスアセスメントのための従来のディープラーニングアーキテクチャを活用してきた。
バニラ変換器,階層変換器,マルチタスク学習モデル,ファクトベース入力表現モデルという4つの異なるトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-05T22:27:17Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。