論文の概要: Dialect-robust Evaluation of Generated Text
- arxiv url: http://arxiv.org/abs/2211.00922v1
- Date: Wed, 2 Nov 2022 07:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:10:04.827945
- Title: Dialect-robust Evaluation of Generated Text
- Title(参考訳): 生成テキストの方言ロバスト評価
- Authors: Jiao Sun, Thibault Sellam, Elizabeth Clark, Tu Vu, Timothy Dozat, Dan
Garrette, Aditya Siddhant, Jacob Eisenstein, Sebastian Gehrmann
- Abstract要約: NLG評価指標の目標として,方言の頑健性と方言認識を定式化する。
このスイートを現在の最先端のメトリクスに適用すると、それらが方言ロバストではないことが示される。
- 参考スコア(独自算出の注目度): 40.85375247260744
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluation metrics that are not robust to dialect variation make it
impossible to tell how well systems perform for many groups of users, and can
even penalize systems for producing text in lower-resource dialects. However,
currently, there exists no way to quantify how metrics respond to change in the
dialect of a generated utterance. We thus formalize dialect robustness and
dialect awareness as goals for NLG evaluation metrics. We introduce a suite of
methods and corresponding statistical tests one can use to assess metrics in
light of the two goals. Applying the suite to current state-of-the-art metrics,
we demonstrate that they are not dialect-robust and that semantic perturbations
frequently lead to smaller decreases in a metric than the introduction of
dialect features. As a first step to overcome this limitation, we propose a
training schema, NANO, which introduces regional and language information to
the pretraining process of a metric. We demonstrate that NANO provides a
size-efficient way for models to improve the dialect robustness while
simultaneously improving their performance on the standard metric benchmark.
- Abstract(参考訳): 方言のばらつきにロバストでない評価指標は、多くのユーザグループでシステムがどのように機能するかを判断できなくなり、低リソースの方言でテキストを生成するシステムに対してペナルティを課すこともできる。
しかし、現在、生成された発話の方言の変化に対してメトリクスがどのように反応するかを定量化する方法は存在しない。
そこで我々は,NLG評価指標の目標として,方言頑健性と方言認識を定式化する。
2つの目標に照らしてメトリクスを評価するために,一連の手法とそれに対応する統計的テストを導入する。
このスイートを現在の最先端のメトリクスに適用すると、それらが方言ロバストではないことが示され、意味的な摂動はしばしば、方言特徴の導入よりもメトリクスの減少を小さくする。
この制限を克服する第一歩として,メトリクスの事前学習プロセスに地域情報や言語情報を導入するトレーニングスキーマNANOを提案する。
標準メトリックベンチマークによる性能向上と同時に,モデルが方言のロバスト性を向上させるための,サイズ効率の高い方法を提供することを実証する。
関連論文リスト
- Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - A Benchmark for Evaluating Machine Translation Metrics on Dialects
Without Standard Orthography [40.04973667048665]
非標準方言の指標がいかに堅牢かを評価する。
我々は、英語から2つのスイスドイツ語方言への自動機械翻訳のための、人間の翻訳と人間の判断のデータセットを収集する。
論文 参考訳(メタデータ) (2023-11-28T15:12:11Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Towards dialect-inclusive recognition in a low-resource language: are
balanced corpora the answer? [5.1121440213561335]
本研究は,話者の方言が認識性能に与える影響を定量化するための診断である。
12のASRシステムは、方言バランスの訓練コーパスとベースラインコーパスの修正版を用いて訓練された。
その結果、方言バランスの取れたコーパスは、方言全体で同様のパフォーマンスを得られないことが示唆された。
Co と Mu の方言の間には密接な関係があるが、対称ではないものが存在する。
論文 参考訳(メタデータ) (2023-07-14T12:18:38Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。