論文の概要: TRUE: Re-evaluating Factual Consistency Evaluation
- arxiv url: http://arxiv.org/abs/2204.04991v1
- Date: Mon, 11 Apr 2022 10:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 01:19:13.271068
- Title: TRUE: Re-evaluating Factual Consistency Evaluation
- Title(参考訳): true: 事実整合性評価の再評価
- Authors: Or Honovich, Roee Aharoni, Jonathan Herzig, Hagai Taitelbaum, Doron
Kukliansy, Vered Cohen, Thomas Scialom, Idan Szpektor, Avinatan Hassidim,
Yossi Matias
- Abstract要約: TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
- 参考スコア(独自算出の注目度): 29.888885917330327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounded text generation systems often generate text that contains factual
inconsistencies, hindering their real-world applicability. Automatic factual
consistency evaluation may help alleviate this limitation by accelerating
evaluation cycles, filtering inconsistent outputs and augmenting training data.
While attracting increasing attention, such evaluation metrics are usually
developed and evaluated in silo for a single task or dataset, slowing their
adoption. Moreover, previous meta-evaluation protocols focused on system-level
correlations with human annotations, which leave the example-level accuracy of
such metrics unclear. In this work, we introduce TRUE: a comprehensive study of
factual consistency metrics on a standardized collection of existing texts from
diverse tasks, manually annotated for factual consistency. Our standardization
enables an example-level meta-evaluation protocol that is more actionable and
interpretable than previously reported correlations, yielding clearer quality
measures. Across diverse state-of-the-art metrics and 11 datasets we find that
large-scale NLI and question generation-and-answering-based approaches achieve
strong and complementary results. We recommend those methods as a starting
point for model and metric developers, and hope TRUE will foster progress
towards even better methods.
- Abstract(参考訳): 接地テキスト生成システムは、しばしば実際の不一致を含むテキストを生成し、現実世界の適用性を阻害する。
自動事実整合性評価は、評価サイクルを加速し、一貫性のないアウトプットをフィルタリングし、トレーニングデータを強化することで、この制限を緩和する。
注目を集める一方で、このような評価メトリクスは通常、単一のタスクやデータセットのためにサイロで開発され、評価され、採用が遅れる。
さらに,従来のメタ評価プロトコルでは,人間のアノテーションとシステムレベルの相関に重点を置いていた。
本稿では,様々なタスクからの既存のテキストの標準化されたコレクションに関する,事実整合性に関する総合的な研究であるTRUEを紹介する。
本稿の標準化は,従来報告した相関よりも実行可能で解釈可能な,サンプルレベルのメタ評価プロトコルを可能にする。
さまざまな最先端メトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
私たちはこれらのメソッドを、モデルやメトリクス開発者の出発点として推奨します。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - ED-FAITH: Evaluating Dialogue Summarization on Faithfulness [35.73012379398233]
まず,対話要約のための忠実度尺度の体系的研究を行った。
我々は,ほとんどの指標が,ニュースデータセットでよく機能しているにもかかわらず,人間の判断と相関が低いことを観察した。
忠実度評価のための新しい尺度T0-Scoreを提案する。
論文 参考訳(メタデータ) (2022-11-15T19:33:50Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Spurious Correlations in Reference-Free Evaluation of Text Generation [35.80256755393739]
本研究では,要約とダイアログ生成の基準フリー評価指標が,単語重複,パープレキシティ,長さなどの指標と急激な相関に依拠していることを示す。
評価指標を明示的に設計し,参照不要な評価の急激な特徴を避けることで,これらの誤差を軽減できることを実証する。
論文 参考訳(メタデータ) (2022-04-21T05:32:38Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。