論文の概要: AlignScore: Evaluating Factual Consistency with a Unified Alignment
Function
- arxiv url: http://arxiv.org/abs/2305.16739v1
- Date: Fri, 26 May 2023 08:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:11:33.167806
- Title: AlignScore: Evaluating Factual Consistency with a Unified Alignment
Function
- Title(参考訳): AlignScore: 統一アライメント関数による実整合性の評価
- Authors: Yuheng Zha, Yichi Yang, Ruichen Li, Zhiting Hu
- Abstract要約: 多くのテキスト生成アプリケーションは、生成したテキストが実際に入力情報と整合していることを要求する。
これまでの研究は、自然言語推論(NLI)や質問応答(QA)といった特定の機能に依存する様々なメトリクスを開発してきた。
本稿では,多種多様な事実整合性シナリオに適用可能な,新たな総合的指標であるAlignScoreを提案する。
- 参考スコア(独自算出の注目度): 23.622016687934376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many text generation applications require the generated text to be factually
consistent with input information. Automatic evaluation of factual consistency
is challenging. Previous work has developed various metrics that often depend
on specific functions, such as natural language inference (NLI) or question
answering (QA), trained on limited data. Those metrics thus can hardly assess
diverse factual inconsistencies (e.g., contradictions, hallucinations) that
occur in varying inputs/outputs (e.g., sentences, documents) from different
tasks. In this paper, we propose AlignScore, a new holistic metric that applies
to a variety of factual inconsistency scenarios as above. AlignScore is based
on a general function of information alignment between two arbitrary text
pieces. Crucially, we develop a unified training framework of the alignment
function by integrating a large diversity of data sources, resulting in 4.7M
training examples from 7 well-established tasks (NLI, QA, paraphrasing, fact
verification, information retrieval, semantic similarity, and summarization).
We conduct extensive experiments on large-scale benchmarks including 22
evaluation datasets, where 19 of the datasets were never seen in the alignment
training. AlignScore achieves substantial improvement over a wide range of
previous metrics. Moreover, AlignScore (355M parameters) matches or even
outperforms metrics based on ChatGPT and GPT-4 that are orders of magnitude
larger.
- Abstract(参考訳): 多くのテキスト生成アプリケーションは、生成したテキストが実際に入力情報と一致していることを要求する。
事実整合性の自動評価は困難である。
これまでの研究は、自然言語推論(NLI)や質問応答(QA)といった、限られたデータに基づいて訓練された特定の機能に依存する様々なメトリクスを開発してきた。
したがって、これらの指標は、異なるタスクから様々な入力/出力(例えば、文、文書)で発生する多様な事実の矛盾(例えば、矛盾、幻覚)を評価できない。
本稿では,上述の様々な事実的不整合シナリオに適用可能な新しい総括的計量であるalignedscoreを提案する。
AlignScoreは2つの任意のテキスト片間の情報アライメントの一般的な機能に基づいている。
重要な点として,多種多様なデータソースを統合することでアライメント機能の統一的なトレーニングフレームワークを開発する。その結果,NLI,QA,パラフレージング,事実検証,情報検索,意味的類似性,要約)から4.7Mのトレーニング例が得られた。
我々は22の評価データセットを含む大規模ベンチマークで広範な実験を行い、19のデータセットはアライメントトレーニングでは見られなかった。
AlignScoreは、以前の幅広いメトリクスよりも大幅に改善されている。
さらにAlignScore(3億5500万のパラメータ)は、ChatGPTとGPT-4に基づいて、桁数が桁違いに大きいメトリクスにマッチする。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Less is More for Improving Automatic Evaluation of Factual Consistency [13.748739666737517]
少数のデータポイントを利用することで、実際にパフォーマンスが向上することを示す。
元のAlignScoreトレーニングデータセットを処理し、ノイズを除去し、頑健なサンプルを増強し、データの10%からなるサブセットを使用して、改善された事実整合性評価モデルをトレーニングする。
実験の結果、LIM-RAは33の試験データセットのうち24の最高スコアを達成し、残りは競争力を維持していることがわかった。
論文 参考訳(メタデータ) (2024-04-09T19:02:12Z) - Standardizing the Measurement of Text Diversity: A Tool and a
Comparative Analysis of Scores [30.12630686473324]
圧縮アルゴリズムは,n$-gramのオーバーラップスコアの計算を遅くすることで,測定値に類似した情報を取得する。
スコアの適用性は、生成モデルの解析を超えて拡張される。
論文 参考訳(メタデータ) (2024-03-01T14:23:12Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - BARTScore: Evaluating Generated Text as Text Generation [89.50052670307434]
我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。
我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。
本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。