論文の概要: Multi-Sentence Resampling: A Simple Approach to Alleviate Dataset Length
Bias and Beam-Search Degradation
- arxiv url: http://arxiv.org/abs/2109.06253v1
- Date: Mon, 13 Sep 2021 18:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:59:12.098086
- Title: Multi-Sentence Resampling: A Simple Approach to Alleviate Dataset Length
Bias and Beam-Search Degradation
- Title(参考訳): multi-sentence resampling:データセット長バイアスとビームサーチ劣化の緩和のための簡単なアプローチ
- Authors: Ivan Provilkov and Andrey Malinin
- Abstract要約: 我々は、ニューラルネットワーク翻訳(NMT)および自動音声認識(ASR)において、大きなビームで大きな品質劣化を引き起こす誤差を解析する。
この問題を緩和するために、新しいデータ拡張技術、textitMulti-Sentence Resampling (MSR)を提案する。
MSRはビームサイズの増加に伴う劣化を著しく低減し、IWSTL$15$En-Vi、IWSTL$17$En-Fr、WMT$14$En-Deデータセットの最終的な翻訳品質を改善する。
- 参考スコア(独自算出の注目度): 13.26214480495533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) is known to suffer from a beam-search
problem: after a certain point, increasing beam size causes an overall drop in
translation quality. This effect is especially pronounced for long sentences.
While much work was done analyzing this phenomenon, primarily for
autoregressive NMT models, there is still no consensus on its underlying cause.
In this work, we analyze errors that cause major quality degradation with large
beams in NMT and Automatic Speech Recognition (ASR). We show that a factor that
strongly contributes to the quality degradation with large beams is
\textit{dataset length-bias} - \textit{NMT datasets are strongly biased towards
short sentences}. To mitigate this issue, we propose a new data augmentation
technique -- \textit{Multi-Sentence Resampling (MSR)}. This technique extends
the training examples by concatenating several sentences from the original
dataset to make a long training example. We demonstrate that MSR significantly
reduces degradation with growing beam size and improves final translation
quality on the IWSTL$15$ En-Vi, IWSTL$17$ En-Fr, and WMT$14$ En-De datasets.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)はビーム探索の問題に苦しむことが知られており、ある時点でビームサイズが増加すると、全体的な翻訳品質が低下する。
この効果は特に長文で顕著である。
主に自己回帰型NMTモデルにおいて、この現象を分析する多くの研究が行われたが、その根本原因についてはまだ合意が得られていない。
本研究では,NMTおよび自動音声認識(ASR)において,大きなビームによる品質劣化の原因となる誤りを解析する。
本研究では, 大きなビームによる品質劣化に強く寄与する要因として, \textit{dataset length-bias} - \textit{NMT datas is strongly biased to short sentences} を挙げる。
この問題を緩和するために、新しいデータ拡張技術 -- \textit{Multi-Sentence Resampling (MSR) を提案する。
このテクニックはトレーニング例を拡張し、元のデータセットから複数の文を連結して長いトレーニング例を作成する。
我々は,MSRがビームサイズの増加に伴う劣化を著しく低減し,IWSTL$15$En-Vi,IWSTL$17$En-Fr,WMT$14$En-Deデータセットの最終的な翻訳品質を向上させることを示した。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Reducing Gender Bias in Machine Translation through Counterfactual Data
Generation [0.0]
訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳詞 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語
また,反実データ生成技術を用いて作成したドメイン内データを活用する新しいドメイン適応手法を提案する。
関連するコードはGithubで入手できる。
論文 参考訳(メタデータ) (2023-11-27T23:03:01Z) - Addressing the Length Bias Problem in Document-Level Neural Machine
Translation [29.590471092149375]
文書レベルのニューラルマシン翻訳(DNMT)は、より多くのコンテキスト情報を組み込むことで、有望な結果を示している。
DNMTは、最大シーケンス長よりもはるかに短いか長い文書を復号する際に、翻訳品質が著しく低下する。
学習方法,注意機構,復号化戦略におけるDNMTモデルの改善を提案する。
論文 参考訳(メタデータ) (2023-11-20T08:29:52Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Addressing Exposure Bias With Document Minimum Risk Training: Cambridge
at the WMT20 Biomedical Translation Task [21.44025591721678]
2020年のWMT生物医学翻訳タスクは、メドラインの抽象翻訳を評価した。
UNICAMのエントリーは、最小リスクトレーニングの堅牢なバリエーションを使用して微調整中にこの問題に対処する。
MRTファインチューニングでは,英語・ドイツ語・英語・スペイン語の生体医学的翻訳のどちらにおいても良好な結果が得られた。
論文 参考訳(メタデータ) (2020-10-11T20:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。