論文の概要: Play the Shannon Game With Language Models: A Human-Free Approach to
Summary Evaluation
- arxiv url: http://arxiv.org/abs/2103.10918v1
- Date: Fri, 19 Mar 2021 17:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:44:16.599073
- Title: Play the Shannon Game With Language Models: A Human-Free Approach to
Summary Evaluation
- Title(参考訳): 言語モデルを用いたシャノンゲーム:要約評価のための人間自由アプローチ
- Authors: Nicholas Egan, Oleg Vasilyev, John Bohannon
- Abstract要約: 本稿では,事前学習言語モデルを用いて文書と要約間で共有される情報を推定する,新たな要約評価指標を提案する。
これらのメトリクスは、数十年前に提案された品質スコアの要約方法であるShannon Gameの現代的な試みです。
紹介された指標が,カバレッジ,全体的な品質,5つの要約次元に基づいて,人間の判断と相関していることを実証的に検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of a summary is to concisely state the most important information in
a document. With this principle in mind, we introduce new reference-free
summary evaluation metrics that use a pretrained language model to estimate the
information shared between a document and its summary. These metrics are a
modern take on the Shannon Game, a method for summary quality scoring proposed
decades ago, where we replace human annotators with language models. We also
view these metrics as an extension of BLANC, a recently proposed approach to
summary quality measurement based on the performance of a language model with
and without the help of a summary. Using GPT-2, we empirically verify that the
introduced metrics correlate with human judgement based on coverage, overall
quality, and five summary dimensions.
- Abstract(参考訳): 要約の目的は、文書の中で最も重要な情報を簡潔に述べることである。
この原則を念頭に置いて,事前学習言語モデルを用いて文書と要約間で共有される情報を推定する参照不要要約評価指標を導入する。
これらの指標は、数十年前に提案された要約品質スコアリング手法であるShannon Gameに対する現代的な見解であり、人間のアノテーションを言語モデルに置き換える。
また,これらのメトリクスは,サマリの助けなしに言語モデルのパフォーマンスに基づいて,最近提案されているサマリ品質測定手法であるbranchの拡張であると考えている。
GPT-2を用いて、導入した指標が、カバレッジ、全体的な品質、および5つの要約次元に基づいて人間の判断と相関していることを実証的に検証した。
関連論文リスト
- Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - Fill in the BLANC: Human-free quality estimation of document summaries [11.92436948211501]
本稿では,文書要約品質の自動推定手法であるBLANCを提案する。
BLANCスコアは、ROUGEファミリーの要約品質測定と同様、人間の評価と良好な相関関係を持つ。
論文 参考訳(メタデータ) (2020-02-23T06:21:43Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。