論文の概要: SLIDE: Reference-free Evaluation for Machine Translation using a Sliding
Document Window
- arxiv url: http://arxiv.org/abs/2309.08832v1
- Date: Sat, 16 Sep 2023 01:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 19:02:17.909944
- Title: SLIDE: Reference-free Evaluation for Machine Translation using a Sliding
Document Window
- Title(参考訳): SLIDE:スライディングドキュメンテーションウィンドウを用いた機械翻訳の参照不要評価
- Authors: Vikas Raunak, Tom Kocmi, Matt Post
- Abstract要約: 追加のソースコンテキストが参照を効果的に代用できるかどうかを検討する。
本稿では,テストセットの各文書をスライドするウィンドウを用いて,文ブロックで動作するメトリクスSLIDEを提案する。
SLIDEは,基準基準値との差をなくす場合もあり,文レベルベースラインよりもはるかに高いペアワイズシステム精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 27.562836291968793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference-based metrics that operate at the sentence level typically
outperform quality estimation metrics, which have access only to the source and
system output. This is unsurprising, since references resolve ambiguities that
may be present in the source. We investigate whether additional source context
can effectively substitute for a reference. We present a metric, SLIDE (SLiding
Document Evaluator), which operates on blocks of sentences using a window that
slides over each document in the test set, feeding each chunk into an
unmodified, off-the-shelf quality estimation model. We find that SLIDE obtains
significantly higher pairwise system accuracy than its sentence-level baseline,
in some cases even eliminating the gap with reference-base metrics. This
suggests that source context may provide the same information as a human
reference.
- Abstract(参考訳): 文レベルで運用される参照ベースのメトリクスは、典型的には、ソースとシステム出力にのみアクセス可能な品質推定メトリクスよりも優れている。
なぜなら、参照はソースに存在する可能性のある曖昧さを解消するからである。
追加のソースコンテキストが参照を効果的に置き換えられるかどうかを検討する。
これはテストセット内の各ドキュメントをスライディングするウィンドウを使用して文ブロック上で動作し、各チャンクを修正されていない、既定の品質推定モデルに送出する。
SLIDEは,基準基準値との差をなくす場合もあり,文レベルベースラインよりもはるかに高いペアワイズシステム精度が得られることがわかった。
これは、ソースコンテキストが人間の参照と同じ情報を提供する可能性があることを示唆している。
関連論文リスト
- Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Revisiting the Evaluation Metrics of Paraphrase Generation [35.6803390044542]
多くの既存のパラフレーズ生成モデルは、生成されたパラフレーズを評価するために参照ベースのメトリクスを使用する。
本稿では、生成されたパラフレーズの品質を反映できる参照フリーメトリックであるBBScoreを提案する。
論文 参考訳(メタデータ) (2022-02-17T07:18:54Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - A Comparison of Approaches to Document-level Machine Translation [34.2276281264886]
本稿では,文書レベルの現象評価スイートに対して選択したアプローチを体系的に比較する。
我々は,単言語文書レベルでのバック翻訳に基づく単純な手法が,より精巧な代替手段として機能することを見出した。
論文 参考訳(メタデータ) (2021-01-26T19:21:09Z) - Document-Level Definition Detection in Scholarly Documents: Existing
Models, Error Analyses, and Future Directions [40.64025648548128]
我々は,構文的特徴,トランスフォーマーエンコーダ,フィルタを利用した新たな定義検出システムHEDDExを開発し,標準文レベルのベンチマークで評価する。
HEDDEx は文レベルと文書レベルの両方のタスクにおいて、それぞれ 12.7 F1 点と 14.4 F1 点を上回っている。
論文 参考訳(メタデータ) (2020-10-11T01:16:10Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。