論文の概要: DATScore: Evaluating Translation with Data Augmented Translations
- arxiv url: http://arxiv.org/abs/2210.06576v1
- Date: Wed, 12 Oct 2022 20:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:32:11.289596
- Title: DATScore: Evaluating Translation with Data Augmented Translations
- Title(参考訳): DATScore:データ拡張翻訳による翻訳の評価
- Authors: Moussa Kamal Eddine, Guokan Shang, Michalis Vazirgiannis
- Abstract要約: DATScoreは様々な側面から生成されたテキストの品質を評価するメトリクスである。
我々の主な発見は、データ拡張翻訳の導入は、生成された翻訳の品質を評価するのに非常に役立ちます。
WMTの実験結果によると、DATScoreは最近の最先端の指標よりもヒトのメタ評価と相関している。
- 参考スコア(独自算出の注目度): 17.456540281230605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of large pretrained language models has revolutionized
not only the field of Natural Language Generation (NLG) but also its
evaluation. Inspired by the recent work of BARTScore: a metric leveraging the
BART language model to evaluate the quality of generated text from various
aspects, we introduce DATScore. DATScore uses data augmentation techniques to
improve the evaluation of machine translation. Our main finding is that
introducing data augmented translations of the source and reference texts is
greatly helpful in evaluating the quality of the generated translation. We also
propose two novel score averaging and term weighting strategies to improve the
original score computing process of BARTScore. Experimental results on WMT show
that DATScore correlates better with human meta-evaluations than the other
recent state-of-the-art metrics, especially for low-resource languages.
Ablation studies demonstrate the value added by our new scoring strategies.
Moreover, we report in our extended experiments the performance of DATScore on
3 NLG tasks other than translation.
- Abstract(参考訳): 大規模事前学習型言語モデルの急速な発展は、自然言語生成(NLG)の分野だけでなく、その評価にも革命をもたらした。
BARTScoreの最近の研究に触発され、様々な側面から生成されたテキストの品質を評価するためにBART言語モデルを利用したメトリクスであるDATScoreを紹介した。
DATScoreはデータ拡張技術を使用して機械翻訳の評価を改善する。
我々の主な発見は、ソースおよび参照テキストのデータ拡張翻訳の導入は、生成された翻訳の品質を評価するのに大いに役立つことである。
また、BARTScoreのスコア計算プロセスを改善するために、2つの新しいスコア平均化と項重み付け戦略を提案する。
WMTの実験結果によると、DATScoreは、特に低リソース言語において、最近の最先端のメトリクスよりも、人間のメタ評価と相関している。
アブレーション研究は、新しいスコアリング戦略に付加される価値を示しています。
さらに,翻訳以外の3つのNLGタスクにおけるDATScoreの性能を拡張実験で報告した。
関連論文リスト
- Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。
我々は、機械翻訳の使用を含む、様々なアプローチを実験する。
言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文 参考訳(メタデータ) (2024-09-30T07:59:41Z) - Less is More for Improving Automatic Evaluation of Factual Consistency [13.748739666737517]
少数のデータポイントを利用することで、実際にパフォーマンスが向上することを示す。
元のAlignScoreトレーニングデータセットを処理し、ノイズを除去し、頑健なサンプルを増強し、データの10%からなるサブセットを使用して、改善された事実整合性評価モデルをトレーニングする。
実験の結果、LIM-RAは33の試験データセットのうち24の最高スコアを達成し、残りは競争力を維持していることがわかった。
論文 参考訳(メタデータ) (2024-04-09T19:02:12Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Toward Human-Like Evaluation for Natural Language Generation with Error
Analysis [93.34894810865364]
最近の研究では、大きなエラー(例えば、誤訳されたトークン)と小さなエラーの両方を考慮すると、高品質な人間の判断が得られることが示されている。
これにより、自動エラー解析によって評価指標(人間のような評価)の最終目標にアプローチするインスピレーションがもたらされる。
BARTScoreは人為的なエラー解析戦略、すなわちBARTScore++を取り入れることでBARTScoreを強化します。
論文 参考訳(メタデータ) (2022-12-20T11:36:22Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - NMTScore: A Multilingual Analysis of Translation-based Text Similarity
Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。
文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。
措置は人間の判断と相対的に高い相関を示す。
論文 参考訳(メタデータ) (2022-04-28T17:57:17Z) - StonkBERT: Can Language Models Predict Medium-Run Stock Price Movements? [0.0]
StonkBERTは従来の言語モデルに比べて予測精度が大幅に向上している。
性能シミュレーションは、これらの分類精度の改善が、平均的な株式市場のリターンにも影響していることを示している。
論文 参考訳(メタデータ) (2022-02-04T17:50:53Z) - BARTScore: Evaluating Generated Text as Text Generation [89.50052670307434]
我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。
我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。
本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:53Z) - A Comprehensive Comparison of Pre-training Language Models [0.5139874302398955]
私たちは、同じテキスト量と同じトレーニングステップで、トランスフォーマーベースのモデルのリストを事前トレーニングします。
実験結果から、BERTの原点における最も改善点は、短いテキスト理解のためにより文脈的な情報を取得するためにRNN層を追加することである。
論文 参考訳(メタデータ) (2021-06-22T02:12:29Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。