論文の概要: Less is More for Improving Automatic Evaluation of Factual Consistency
- arxiv url: http://arxiv.org/abs/2404.06579v1
- Date: Tue, 9 Apr 2024 19:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 16:18:39.520583
- Title: Less is More for Improving Automatic Evaluation of Factual Consistency
- Title(参考訳): ファクチュアル・一貫性の自動評価の改善にむけて
- Authors: Tong Wang, Ninad Kulkarni, Yanjun Qi,
- Abstract要約: 少数のデータポイントを利用することで、実際にパフォーマンスが向上することを示す。
元のAlignScoreトレーニングデータセットを処理し、ノイズを除去し、頑健なサンプルを増強し、データの10%からなるサブセットを使用して、改善された事実整合性評価モデルをトレーニングする。
実験の結果、LIM-RAは33の試験データセットのうち24の最高スコアを達成し、残りは競争力を維持していることがわかった。
- 参考スコア(独自算出の注目度): 13.748739666737517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the factual consistency of automatically generated texts in relation to source context is crucial for developing reliable natural language generation applications. Recent literature proposes AlignScore which uses a unified alignment model to evaluate factual consistency and substantially outperforms previous methods across many benchmark tasks. In this paper, we take a closer look of datasets used in AlignScore and uncover an unexpected finding: utilizing a smaller number of data points can actually improve performance. We process the original AlignScore training dataset to remove noise, augment with robustness-enhanced samples, and utilize a subset comprising 10\% of the data to train an improved factual consistency evaluation model, we call LIM-RA (Less Is More for Robust AlignScore). LIM-RA demonstrates superior performance, consistently outperforming AlignScore and other strong baselines like ChatGPT across four benchmarks (two utilizing traditional natural language generation datasets and two focused on large language model outputs). Our experiments show that LIM-RA achieves the highest score on 24 of the 33 test datasets, while staying competitive on the rest, establishing the new state-of-the-art benchmarks.
- Abstract(参考訳): ソースコンテキストに関連する自動生成テキストの事実整合性を評価することは、信頼性の高い自然言語生成アプリケーションを開発する上で重要である。
近年の文献では、統合アライメントモデルを用いて事実整合性を評価し、多くのベンチマークタスクで従来の手法よりも大幅に優れるAlignScoreを提案する。
本稿では、AlignScoreで使用されるデータセットを詳しく調べ、予期せぬ発見を明らかにする。
我々は、元のAlignScoreトレーニングデータセットを処理し、ノイズを除去し、ロバスト性向上したサンプルを増量し、データの10%からなるサブセットを使用して、改善された事実整合性評価モデル(LIM-RA)をトレーニングする。
LIM-RAは優れたパフォーマンスを示し、AlignScoreやChatGPTのような強力なベースラインを4つのベンチマークで継続的に上回る。
実験の結果、LIM-RAは33の試験データセットのうち24の最高スコアを達成し、残りは競争力を維持し、新しい最先端のベンチマークを確立した。
関連論文リスト
- Benchmark Inflation: Revealing LLM Performance Gaps Using Retro-Holdouts [0.6282171844772422]
多くのLarge Language Models(LLM)のトレーニングデータは、テストデータによって汚染される。
公開ベンチマークスコアは必ずしもモデルプロパティを正確に評価するとは限らない。
論文 参考訳(メタデータ) (2024-10-11T20:46:56Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - DATScore: Evaluating Translation with Data Augmented Translations [17.456540281230605]
DATScoreは様々な側面から生成されたテキストの品質を評価するメトリクスである。
我々の主な発見は、データ拡張翻訳の導入は、生成された翻訳の品質を評価するのに非常に役立ちます。
WMTの実験結果によると、DATScoreは最近の最先端の指標よりもヒトのメタ評価と相関している。
論文 参考訳(メタデータ) (2022-10-12T20:31:42Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。