論文の概要: Lack of Fluency is Hurting Your Translation Model
- arxiv url: http://arxiv.org/abs/2205.11826v1
- Date: Tue, 24 May 2022 06:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 05:05:09.173218
- Title: Lack of Fluency is Hurting Your Translation Model
- Title(参考訳): 流血の欠如が翻訳モデルを傷つける
- Authors: Jaehyo Yoo and Jaewoo Kang
- Abstract要約: この研究は、列車の文のどの部分が不自然に見えるかを決定するために、テクティトゥフルエンシノイズを定義している。
WMT-14 DE$rightarrow$EN と RU$rightarrow$EN のベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 18.259879373559546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine translation models are trained on bilingual corpus, which
consist of aligned sentence pairs from two different languages with same
semantic. However, there is a qualitative discrepancy between train and test
set in bilingual corpus. While the most train sentences are created via
automatic techniques such as crawling and sentence-alignment methods, the test
sentences are annotated with the consideration of fluency by human. We suppose
this discrepancy in training corpus will yield performance drop of translation
model. In this work, we define \textit{fluency noise} to determine which parts
of train sentences cause them to seem unnatural. We show that \textit{fluency
noise} can be detected by simple gradient-based method with pre-trained
classifier. By removing \textit{fluency noise} in train sentences, our final
model outperforms the baseline on WMT-14 DE$\rightarrow$EN and
RU$\rightarrow$EN. We also show the compatibility with back-translation
augmentation, which has been commonly used to improve the fluency of the
translation model. At last, the qualitative analysis of \textit{fluency noise}
provides the insight of what points we should focus on.
- Abstract(参考訳): 多くの機械翻訳モデルは、同じ意味を持つ2つの異なる言語の文対からなるバイリンガルコーパスで訓練されている。
しかし、二言語コーパスでは、列車とテストセットの質的不一致がある。
最も多くの列車文はクロール法や文調整法などの自動手法で作成されるが、試験文は人による流布を考慮したアノテートされる。
学習コーパスにおけるこの相違は、翻訳モデルの性能低下をもたらすだろう。
本研究では, 学習文のどの部分が不自然に見えるかを決定するために, \textit{fluency noise} を定義する。
本稿では,事前学習した分類器を用いた単純な勾配法により,‘textit{fluency noise} が検出可能であることを示す。
WMT-14 DE$\rightarrow$EN と RU$\rightarrow$EN のベースラインよりも優れています。
また,翻訳モデルの流動性向上に広く用いられているバックトランスレーション拡張との互換性を示す。
最後に、 \textit{fluency noise} の質的分析は、どの点にフォーカスすべきかの洞察を与えてくれる。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Improving Word Sense Disambiguation in Neural Machine Translation with
Salient Document Context [30.461643690171258]
語彙的曖昧さは機械翻訳(mt)における困難かつ普及的な問題である
ニューラルmtに少量の外部コンテキストを組み込むことで、翻訳のあいまいさを解決するためのシンプルでスケーラブルなアプローチを導入する。
本手法は,強文レベルのベースラインと同等の文書レベルのベースラインよりも曖昧なソース語を翻訳する。
論文 参考訳(メタデータ) (2023-11-27T03:05:48Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Aligning Cross-lingual Sentence Representations with Dual Momentum
Contrast [12.691501386854094]
本稿では,異なる言語からの文表現を,単純なドット積で意味的類似性を計算可能な統合埋め込み空間に整合させることを提案する。
実験結果が示すように,本モデルが生成した文表現は,複数のタスクにおいて新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-09-01T08:48:34Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。