論文の概要: CEval: A Benchmark for Evaluating Counterfactual Text Generation
- arxiv url: http://arxiv.org/abs/2404.17475v1
- Date: Fri, 26 Apr 2024 15:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:45:10.481119
- Title: CEval: A Benchmark for Evaluating Counterfactual Text Generation
- Title(参考訳): CEval: 対実テキスト生成の評価ベンチマーク
- Authors: Van Bach Nguyen, Jörg Schlötterer, Christin Seifert,
- Abstract要約: 本稿では,テキスト生成手法の比較のためのベンチマークであるCEvalを提案する。
我々の実験では、偽造テキストを生成するための完璧な方法が見つからなかった。
CEvalをオープンソースのPythonライブラリとして利用できるようにすることで、コミュニティはより多くのメソッドをコントリビュートすることを推奨しています。
- 参考スコア(独自算出の注目度): 2.899704155417792
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Counterfactual text generation aims to minimally change a text, such that it is classified differently. Judging advancements in method development for counterfactual text generation is hindered by a non-uniform usage of data sets and metrics in related work. We propose CEval, a benchmark for comparing counterfactual text generation methods. CEval unifies counterfactual and text quality metrics, includes common counterfactual datasets with human annotations, standard baselines (MICE, GDBA, CREST) and the open-source language model LLAMA-2. Our experiments found no perfect method for generating counterfactual text. Methods that excel at counterfactual metrics often produce lower-quality text while LLMs with simple prompts generate high-quality text but struggle with counterfactual criteria. By making CEval available as an open-source Python library, we encourage the community to contribute more methods and maintain consistent evaluation in future work.
- Abstract(参考訳): 偽造テキスト生成は、テキストを最小限に変更することを目的としており、異なる分類がなされている。
対実テキスト生成のための手法開発における判断の進歩は、関連する作業におけるデータセットとメトリクスの統一的使用によって妨げられる。
本稿では,テキスト生成手法の比較のためのベンチマークであるCEvalを提案する。
CEvalは、ヒューマンアノテーション、標準ベースライン(MICE、GDBA、CREST)、オープンソースの言語モデルであるLAMA-2を含む、反ファクトおよびテキスト品質のメトリクスを統一する。
我々の実験では、偽造テキストを生成するための完璧な方法が見つからなかった。
反ファクトの指標で優れた手法は、しばしば低品質のテキストを生成するが、単純なプロンプトを持つLCMは高品質のテキストを生成するが、反ファクトの基準に苦しむ。
CEvalをオープンソースPythonライブラリとして利用可能にすることで、コミュニティはより多くのメソッドを提供し、今後の作業で一貫した評価を維持することを奨励します。
関連論文リスト
- Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework [0.1979158763744267]
オープンエンドテキスト生成は自然言語処理において顕著な課題となっている。
復号法は、いくつかの指標で優れ、他の指標では性能が劣ることが多い。
本稿では,この多基準フレームワークにおける新たなランキング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-24T11:32:01Z) - HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。
HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。
また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文 参考訳(メタデータ) (2024-09-24T15:38:11Z) - Check-Eval: A Checklist-based Approach for Evaluating Text Quality [3.031375888004876]
textscCheck-Evalは、参照なしと参照依存の両方の評価方法として使用できる。
textscCheck-Evalは、既存のメトリクスと比較して、人間の判断と高い相関性を達成する。
論文 参考訳(メタデータ) (2024-07-19T17:14:16Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - BARTScore: Evaluating Generated Text as Text Generation [89.50052670307434]
我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。
我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。
本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:53Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。