論文の概要: Data-QuestEval: A Referenceless Metric for Data to Text Semantic
Evaluation
- arxiv url: http://arxiv.org/abs/2104.07555v1
- Date: Thu, 15 Apr 2021 16:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:00:15.647425
- Title: Data-QuestEval: A Referenceless Metric for Data to Text Semantic
Evaluation
- Title(参考訳): Data-QuestEval: テキストセマンティック評価のための参照なしメトリクス
- Authors: Cl\'ement Rebuffel, Thomas Scialom, Laure Soulier, Benjamin
Piwowarski, Sylvain Lamprier, Jacopo Staiano, Geoffrey Scoutheeten, Patrick
Gallinari
- Abstract要約: QuestEvalは、予測と構造化された入力データを直接比較し、質問や回答を自動的に行うメトリクスである。
マルチモーダルQG/QAのトレーニングを可能にする合成マルチモーダルコーポラを構築します。
基準なし、マルチモーダルで、E2EおよびWebNLGベンチマークで人間の判断と最新の相関関係を得ます。
- 参考スコア(独自算出の注目度): 33.672301484161416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore how QuestEval, which is a Text-vs-Text metric, can
be adapted for the evaluation of Data-to-Text Generation systems. QuestEval is
a reference-less metric that compares the predictions directly to the
structured input data by automatically asking and answering questions. Its
adaptation to Data-to-Text is not straightforward as it requires multi-modal
Question Generation and Answering (QG \& QA) systems. To this purpose, we
propose to build synthetic multi-modal corpora that enables to train
multi-modal QG/QA. The resulting metric is reference-less, multi-modal; it
obtains state-of-the-art correlations with human judgement on the E2E and
WebNLG benchmark.
- Abstract(参考訳): 本稿では,テキスト-vs-TextメトリックであるQuestEvalをデータ-テキスト生成システムの評価に適用する方法について検討する。
QuestEvalは参照なしメトリックで、自動質問と回答によって、予測と構造化された入力データを直接比較する。
Data-to-Textへの適応は、マルチモーダル質問生成および回答(QG \& QA)システムを必要とするため、簡単ではない。
そこで本研究では,マルチモーダルQG/QAの学習を可能にする合成マルチモーダルコーパスの構築を提案する。
その結果、e2eとwebnlgベンチマークで人間の判断と最先端の相関が得られる。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - D2S: Document-to-Slide Generation Via Query-Based Text Summarization [27.576875048631265]
我々は、最近のNLPおよびMLカンファレンスの論文とそれに対応するスライドデッキからなる新しいデータセット、SciDuetをコントリビュートする。
第2に,文書からスライドまでのタスクに2段階のアプローチで取り組む新しいシステムD2Sを提案する。
私たちの評価は、長期形式のQAは、自動化されたROUGEメトリクスと定性的な人間評価の両方の最先端の要約ベースラインを上回ることを示唆しています。
論文 参考訳(メタデータ) (2021-05-08T10:29:41Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。