論文の概要: Relevance in Dialogue: Is Less More? An Empirical Comparison of Existing
Metrics, and a Novel Simple Metric
- arxiv url: http://arxiv.org/abs/2206.01823v1
- Date: Fri, 3 Jun 2022 21:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:33:58.772206
- Title: Relevance in Dialogue: Is Less More? An Empirical Comparison of Existing
Metrics, and a Novel Simple Metric
- Title(参考訳): 対話の関連性: より少ないか?
既存のメトリクスと新しい単純なメトリクスの実証的な比較
- Authors: Ian Berlot-Attwell and Frank Rudzicz
- Abstract要約: 相関性を改善しつつデータ要求と領域感度を低減させる修正を提案する。
提案手法は,HUMODデータセットの精度を37%-66%低下させながら,HUMODデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 18.690461703947047
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we evaluate various existing dialogue relevance metrics, find
strong dependency on the dataset, often with poor correlation with human scores
of relevance, and propose modifications to reduce data requirements and domain
sensitivity while improving correlation. Our proposed metric achieves
state-of-the-art performance on the HUMOD dataset while reducing measured
sensitivity to dataset by 37%-66%. We achieve this without fine-tuning a
pretrained language model, and using only 3,750 unannotated human dialogues and
a single negative example. Despite these limitations, we demonstrate
competitive performance on four datasets from different domains. Our code,
including our metric and experiments, is open sourced.
- Abstract(参考訳): 本研究では,既存の対話関連メトリクスを評価し,データセットへの強い依存度を見出すとともに,人間関係のスコアとの相関度が低い場合が多く,相関性を改善しながらデータ要求とドメイン感度を低減するための修正を提案する。
提案手法は,humodデータセットにおける最先端性能を実現し,データセットに対する感度を37%-66%削減する。
事前学習された言語モデルを微調整することなくこれを実現し,3,750個の無注釈の人間の対話と1つの否定的な例のみを用いた。
これらの制限にもかかわらず、異なるドメインの4つのデータセットで競合性能を示す。
メトリクスや実験を含む私たちのコードは、オープンソースです。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - ED-FAITH: Evaluating Dialogue Summarization on Faithfulness [35.73012379398233]
まず,対話要約のための忠実度尺度の体系的研究を行った。
我々は,ほとんどの指標が,ニュースデータセットでよく機能しているにもかかわらず,人間の判断と相関が低いことを観察した。
忠実度評価のための新しい尺度T0-Scoreを提案する。
論文 参考訳(メタデータ) (2022-11-15T19:33:50Z) - DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations [46.942369532632604]
不整合データ生成のためのAMRに基づく意味操作に依存する対話評価指標を提案する。
実験の結果,DEAMは基準法と比較して,人間の判断と高い相関性が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-18T03:11:35Z) - Process for Adapting Language Models to Society (PALMS) with
Values-Targeted Datasets [0.0]
言語モデルは有害で偏りのある出力を生成し、望ましくない振る舞いを示すことができる。
本稿では,言語モデルから社会への適応プロセス(PALMS)を提案する。
言語モデルの振る舞いを著しく調整することは、手書きの小さなデータセットで実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-18T19:38:28Z) - Domain Adaptative Causality Encoder [52.779274858332656]
我々は,適応因果同定と局所化の課題に対処するために,依存木の特徴と敵対学習を活用する。
我々は、テキストにあらゆる種類の因果関係を統合する新しい因果関係データセット、MedCausを提案する。
論文 参考訳(メタデータ) (2020-11-27T04:14:55Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。