論文の概要: Large Language Models are Diverse Role-Players for Summarization
Evaluation
- arxiv url: http://arxiv.org/abs/2303.15078v1
- Date: Mon, 27 Mar 2023 10:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:01:12.094754
- Title: Large Language Models are Diverse Role-Players for Summarization
Evaluation
- Title(参考訳): 大言語モデルは要約評価のための多言語ロールプレーヤである
- Authors: Ning Wu, Ming Gong, Linjun Shou, Shining Liang, Daxin Jiang
- Abstract要約: 言語評価の大きな課題は、既存のメトリクスと人間の評価の間に明確な違いがあることである。
LLMをベースとした新たな評価フレームワークを提案し、生成されたテキストと参照テキストを比較して総合的な評価フレームワークを提供する。
我々のモデルは競争力が高く、人間のアノテータとの一貫性が非常に高い。
- 参考スコア(独自算出の注目度): 59.89562228267165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text summarization has a wide range of applications in many scenarios. The
evaluation of the quality of the generated text is a complex problem. A big
challenge to language evaluation is that there is a clear divergence between
existing metrics and human evaluation. For example, the quality of a document
summary can be measured by human annotators from both objective aspects, such
as grammatical and semantic correctness, as well as subjective dimensions, such
as comprehensiveness, succinctness, and interestingness. Most of the automatic
evaluation methods like BLUE/ROUGE may be not able to capture the above
dimensions well. In this paper, we propose a new evaluation framework based on
LLMs, which provides a comprehensive evaluation framework by comparing
generated text and reference text from both objective and subjective aspects.
First, we propose to model objective and subjective dimensions of generated
text based on roleplayers prompting mechanism. Furthermore, we introduce a
context-based prompting mechanism that is able to generate dynamic roleplayer
profiles based on input context. Finally, we design a multi-roleplayer
prompting technology based on batch prompting to integrate multiple evaluation
results into evaluation results. Experimental results on two real datasets for
summarization show that our model is highly competitive and has a very high
consistency with human annotators.
- Abstract(参考訳): テキスト要約は多くのシナリオにおいて幅広い応用がある。
生成されたテキストの品質評価は複雑な問題である。
言語評価に対する大きな課題は、既存のメトリクスと人的評価の間に明確な相違があることである。
例えば、文書要約の品質は、文法的、意味的正当性などの客観的側面と、包括性、簡潔性、面白さといった主観的次元の両方から人間の注釈によって測定することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元をうまく捉えられないかもしれない。
本稿では,目的と主観の両方から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するllmsに基づく新しい評価フレームワークを提案する。
まず,ロールプレイヤのプロンプト機構に基づいて,生成したテキストの客観的次元と主観次元をモデル化する。
さらに、入力コンテキストに基づいて動的ロールプレイヤプロファイルを生成することができるコンテキストベースのプロンプト機構を導入する。
最後に,バッチプロンプトに基づくマルチロールプレーヤを設計し,複数の評価結果を評価結果に統合する。
要約のための2つの実データセットの実験結果から,本モデルは非常に競争力が高く,アノテータとの整合性が高いことが示された。
関連論文リスト
- Assessment of Transformer-Based Encoder-Decoder Model for Human-Like Summarization [0.05852077003870416]
この研究は、トランスフォーマーベースのBARTモデルを利用して人間のような要約を行う。
エンコーダ・デコーダモデルの訓練および微調整において,多種多様なサンプル記事を用いて検証を行った。
微調整モデルの性能をベースライン事前訓練モデルと比較する。
BBC Newsの記事に載った実証的な結果は、人間によって書かれた金の標準要約の方が17%も現実的に一貫性があることを示している。
論文 参考訳(メタデータ) (2024-10-22T09:25:04Z) - MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.19073789961769]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。
MATEval: "Multi-Agent Text Evaluation framework"を提案する。
本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文 参考訳(メタデータ) (2024-03-28T10:41:47Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。