論文の概要: Evaluation of Semantic Answer Similarity Metrics
- arxiv url: http://arxiv.org/abs/2206.12664v1
- Date: Sat, 25 Jun 2022 14:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 05:33:08.175445
- Title: Evaluation of Semantic Answer Similarity Metrics
- Title(参考訳): セマンティックアンサー類似度尺度の評価
- Authors: Farida Mustafazade, Peter Ebbinghaus
- Abstract要約: そこで本稿では,アメリカとアメリカのパブリックな人物の名前対からなる新しいデータセットをトレーニングした,意味応答類似性のためのクロスエンコーダ拡張バイエンコーダとBERTScoreモデルを提案する。
共参照型文字列ペアの最初のデータセットとその類似性について,トレーニングに使用可能なデータセットを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are several issues with the existing general machine translation or
natural language generation evaluation metrics, and question-answering (QA)
systems are indifferent in that context. To build robust QA systems, we need
the ability to have equivalently robust evaluation systems to verify whether
model predictions to questions are similar to ground-truth annotations. The
ability to compare similarity based on semantics as opposed to pure string
overlap is important to compare models fairly and to indicate more realistic
acceptance criteria in real-life applications. We build upon the first to our
knowledge paper that uses transformer-based model metrics to assess semantic
answer similarity and achieve higher correlations to human judgement in the
case of no lexical overlap. We propose cross-encoder augmented bi-encoder and
BERTScore models for semantic answer similarity, trained on a new dataset
consisting of name pairs of US-American public figures. As far as we are
concerned, we provide the first dataset of co-referent name string pairs along
with their similarities, which can be used for training.
Machine Learning & Applications 4th International Conference on Machine
Learning & Applications (CMLA 2022) June 25~26, 2022, Copenhagen, Denmark
Volume Editors : David C. Wyld, Dhinaharan Nagamalai (Eds) ISBN :
978-1-925953-69-5
- Abstract(参考訳): 既存の汎用機械翻訳や自然言語生成評価指標にはいくつかの問題があり、質問応答(QA)システムはその文脈では無関心である。
頑健なQAシステムを構築するためには,質問に対するモデル予測が地味なアノテーションに類似しているかどうかを検証するために,同等に堅牢な評価システムを構築する必要がある。
純弦重なりではなく意味論に基づく類似性を比較する能力は、モデルを公平に比較し、現実のアプリケーションにおいてより現実的な受容基準を示すことが重要である。
本論文は,トランスフォーマーに基づくモデルメトリクスを用いて,意味的回答の類似性を評価し,語彙重複のない場合の人間の判断との相関性を高めるための知識論文である。
そこで本稿では,アメリカとアメリカのパブリックな人物の名前対からなる新しいデータセットをトレーニングした,意味応答類似性のためのクロスエンコーダ拡張バイエンコーダとBERTScoreモデルを提案する。
私たちは、トレーニングに使用できる類似性とともに、共参照名文字列ペアの最初のデータセットを提供しています。
第4回機械学習と応用に関する国際会議(CMLA 2022年6月25日~26日,2022年,コペンハーゲン,デンマークのボリュームエディタ : David C. Wyld, Dhinaharan Nagamalai (Eds) ISBN : 978-1-925953-69-5
関連論文リスト
- SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - 'Tis but Thy Name: Semantic Question Answering Evaluation with 11M Names
for 1M Entities [0.0]
Wiki Entity similarity(WES)データセットは、Wikipediaのリンクテキストから生成される111M例、ドメインターゲット、セマンティックエンティティ類似性データセットである。
例はエンティティとフレーズで、セマンティッククラスタにグループ化され、複数の基底構造ラベルをシミュレートする。
人間のアノテータは、WESラベルに一貫して同意し、基本的なクロスエンコーダメトリックは、人間の正当性を予測するための4つの古典的な指標よりも優れている。
論文 参考訳(メタデータ) (2022-02-28T07:12:39Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Semantic Answer Similarity for Evaluating Question Answering Models [2.279676596857721]
SASは、意味応答の類似度を推定するためのクロスエンコーダベースの計量である。
近年の変圧器モデルに基づく意味的類似度指標は,従来の語彙的類似度指標よりも人間の判断とよく相関していることを示す。
論文 参考訳(メタデータ) (2021-08-13T09:12:27Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - $Q^{2}$: Evaluating Factual Consistency in Knowledge-Grounded Dialogues
via Question Generation and Question Answering [38.951535576102906]
ナレッジベース対話モデルにおける事実整合性のための自動評価指標を提案する。
当社のメトリクスは、共参照解像度と自然言語推論機能を利用しています。
We curate a novel dataset of state-of-the-art dialogue system outputs for the Wizard-of-Wikipedia dataset。
論文 参考訳(メタデータ) (2021-04-16T16:21:16Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。