論文の概要: Evaluating Factual Consistency of Texts with Semantic Role Labeling
- arxiv url: http://arxiv.org/abs/2305.13309v1
- Date: Mon, 22 May 2023 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 13:30:26.570286
- Title: Evaluating Factual Consistency of Texts with Semantic Role Labeling
- Title(参考訳): 意味的役割ラベリングを用いたテキストの事実整合性の評価
- Authors: Jing Fan, Dennis Aumiller, Michael Gertz
- Abstract要約: 本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
- 参考スコア(独自算出の注目度): 3.1776833268555134
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated evaluation of text generation systems has recently seen increasing
attention, particularly checking whether generated text stays truthful to input
sources. Existing methods frequently rely on an evaluation using task-specific
language models, which in turn allows for little interpretability of generated
scores. We introduce SRLScore, a reference-free evaluation metric designed with
text summarization in mind. Our approach generates fact tuples constructed from
Semantic Role Labels, applied to both input and summary texts. A final
factuality score is computed by an adjustable scoring mechanism, which allows
for easy adaption of the method across domains. Correlation with human
judgments on English summarization datasets shows that SRLScore is competitive
with state-of-the-art methods and exhibits stable generalization across
datasets without requiring further training or hyperparameter tuning. We
experiment with an optional co-reference resolution step, but find that the
performance boost is mostly outweighed by the additional compute required. Our
metric is available online at https://github.com/heyjing/SRLScore.
- Abstract(参考訳): 近年,テキスト生成システムの自動評価が注目され,特に生成したテキストが入力元に忠実であるかどうかが注目されている。
既存の手法はタスク固有の言語モデルを用いた評価にしばしば依存しており、それによって生成されたスコアのほとんど解釈できない。
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
提案手法は,意味的役割ラベルから構築したファクトタプルを生成し,入力文と要約文の両方に適用する。
最終事実度スコアは調整可能なスコアリング機構によって計算され、ドメイン間のメソッドの適応が容易になる。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合し、さらなるトレーニングやハイパーパラメータチューニングを必要とせず、データセット間で安定した一般化を示すことを示している。
我々は、オプションの共参照解決ステップで実験するが、性能向上は、必要となる計算量によって大きく上回っている。
当社のメトリックはhttps://github.com/heyjing/srlscore.comで利用可能です。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Label Agnostic Pre-training for Zero-shot Text Classification [4.9081735096855565]
現実世界の応用では、与えられたテキストを記述するための無限ラベル空間が存在する。
我々は2つの新しいシンプルで効果的な事前学習戦略、ImplicitとExplicitの事前学習を導入する。
これらのメソッドは、タスクレベルの理解を構築するためにモデルを条件付けすることを目的として、列車時のモデルにアスペクトレベルの理解を注入します。
論文 参考訳(メタデータ) (2023-05-25T22:55:32Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - BARTScore: Evaluating Generated Text as Text Generation [89.50052670307434]
我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。
我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。
本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:53Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。