論文の概要: Noisy UGC Translation at the Character Level: Revisiting Open-Vocabulary
Capabilities and Robustness of Char-Based Models
- arxiv url: http://arxiv.org/abs/2110.12552v1
- Date: Sun, 24 Oct 2021 23:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 08:31:02.489943
- Title: Noisy UGC Translation at the Character Level: Revisiting Open-Vocabulary
Capabilities and Robustness of Char-Based Models
- Title(参考訳): キャラクタレベルでの騒がしいucc翻訳--charモデルのオープンボキャブラリー能力とロバスト性の再検討
- Authors: Jos\'e Carlos Rosales N\'u\~nez, Guillaume Wisniewski, Djam\'e Seddah
- Abstract要約: 本研究は,雑音の多いユーザ生成コンテンツ(UGC)を翻訳する文字ベースニューラルマシン翻訳の能力について検討する。
我々はまず,注釈付きデータセット上でのユーザ生成コンテンツ現象の翻訳性能に対する有害な影響について検討した。
このようなモデルでは、未知文字を扱えないことが示され、そのような文字に遭遇すると破滅的な翻訳失敗が起こる。
- 参考スコア(独自算出の注目度): 6.123324869194193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores the capacities of character-based Neural Machine
Translation to translate noisy User-Generated Content (UGC) with a strong focus
on exploring the limits of such approaches to handle productive UGC phenomena,
which almost by definition, cannot be seen at training time. Within a strict
zero-shot scenario, we first study the detrimental impact on translation
performance of various user-generated content phenomena on a small annotated
dataset we developed, and then show that such models are indeed incapable of
handling unknown letters, which leads to catastrophic translation failure once
such characters are encountered. We further confirm this behavior with a
simple, yet insightful, copy task experiment and highlight the importance of
reducing the vocabulary size hyper-parameter to increase the robustness of
character-based models for machine translation.
- Abstract(参考訳): 本研究は,ユビキタスなユーザ生成コンテンツ(UGC)を翻訳する文字ベースのニューラルマシン翻訳の能力について,ほぼ定義上,トレーニング時に見ることができない生産的なUGC現象を扱うための,そのようなアプローチの限界を探求することに焦点を当てた。
厳密なゼロショットシナリオにおいて、我々はまず、開発した小さな注釈付きデータセット上で、様々なユーザ生成コンテンツ現象の翻訳性能に対する有害な影響を調査し、そのようなモデルが未知文字を扱うことができないことを示す。
さらに,この動作を単純かつ洞察に富んだコピータスク実験で確認し,機械翻訳における文字ベースモデルの堅牢性を高めるために語彙サイズの超パラメータを減らすことの重要性を強調した。
関連論文リスト
- Contextual Spelling Correction with Language Model for Low-resource Setting [0.0]
文脈理解を伴うSCモデルを提供するために、小規模な単語ベースの変換器LMを訓練する。
コーパスからエラー発生確率(エラーモデル)を抽出する。
LMとエラーモデルを組み合わせることで、よく知られたノイズチャネルフレームワークを通じてSCモデルを開発することができる。
論文 参考訳(メタデータ) (2024-04-28T05:29:35Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Sentence Boundary Augmentation For Neural Machine Translation Robustness [11.290581889247983]
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
論文 参考訳(メタデータ) (2020-10-21T16:44:48Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Denoising Large-Scale Image Captioning from Alt-text Data using Content
Selection Models [25.86785379429413]
コンテンツワードをスケルトンとして選択することは、改良された発音されたキャプションを生成するのに役立ちます。
また、予測された英語の骨格をさらに言語横断的に活用し、非英語の字幕を生成することも示している。
また、骨格に基づく予測により、長さ、内容、性別表現などのキャプション特性をよりよく制御できることを示す。
論文 参考訳(メタデータ) (2020-09-10T23:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。