論文の概要: Machine Translation with Unsupervised Length-Constraints
- arxiv url: http://arxiv.org/abs/2004.03176v1
- Date: Tue, 7 Apr 2020 07:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:47:56.395339
- Title: Machine Translation with Unsupervised Length-Constraints
- Title(参考訳): 教師なし長さ制約による機械翻訳
- Authors: Jan Niehues
- Abstract要約: 翻訳が与えられたフォーマットで表示される必要がある場合、私たちは長さの制約に焦点を合わせます。
テキスト圧縮をまず翻訳し、次に文章圧縮を実行する従来の方法と比較して、テキスト圧縮は完全に教師なしである。
制約の下で翻訳品質を大幅に改善することができます。
- 参考スコア(独自算出の注目度): 12.376309678270275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have seen significant improvements in machine translation due to the usage
of deep learning. While the improvements in translation quality are impressive,
the encoder-decoder architecture enables many more possibilities. In this
paper, we explore one of these, the generation of constraint translation. We
focus on length constraints, which are essential if the translation should be
displayed in a given format. In this work, we propose an end-to-end approach
for this task. Compared to a traditional method that first translates and then
performs sentence compression, the text compression is learned completely
unsupervised. By combining the idea with zero-shot multilingual machine
translation, we are also able to perform unsupervised monolingual sentence
compression. In order to fulfill the length constraints, we investigated
several methods to integrate the constraints into the model. Using the
presented technique, we are able to significantly improve the translation
quality under constraints. Furthermore, we are able to perform unsupervised
monolingual sentence compression.
- Abstract(参考訳): ディープラーニングの利用によって、機械翻訳が大幅に改善されている。
翻訳品質の改善は印象的だが、エンコーダ/デコーダアーキテクチャは、多くの可能性を実現する。
本稿では,これらの1つ,制約翻訳の生成について検討する。
我々は、翻訳を所定のフォーマットで表示すべき場合に必要となる、長さの制約に焦点を当てる。
本研究では,この課題に対するエンドツーエンドアプローチを提案する。
テキスト圧縮を最初に翻訳して実行した従来の方法と比較して、テキスト圧縮は完全に教師なしである。
このアイデアをゼロショット多言語機械翻訳と組み合わせることで,教師なし単言語文圧縮も行うことができる。
長さ制約を満たすために,モデルに制約を統合するいくつかの手法を検討した。
提案手法を用いることで,制約下での翻訳品質を大幅に向上させることができる。
さらに,教師なしの単言語文圧縮も可能である。
関連論文リスト
- Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding [53.84948040596055]
修正された復号化目標を用いて、障害ケースを緩和する2つの関連手法を提案する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験は、これらの手法が幻覚やターゲット外の翻訳を抑制することを示した。
論文 参考訳(メタデータ) (2023-09-13T17:15:27Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Interactive-Chain-Prompting: Ambiguity Resolution for Crosslingual
Conditional Generation with Interaction [38.73550742775257]
ある言語のソースクエリは、追加のコンテキストなしで、別の言語でいくつかの翻訳オプションを生成することができる。
あいまいさに対処するサブプロブレムのリストに変換を還元する対話型チェーンプロンプトを提案する。
異なる言語現象を示すデータセットを作成し、4つの言語の推論におけるあいまいさを導く。
論文 参考訳(メタデータ) (2023-01-24T21:08:13Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Using Machine Translation to Localize Task Oriented NLG Output [5.770385426429663]
本稿では、英語の出力に機械翻訳を適用することにより、これを行う。
要求される品質バーは完璧に近く、文の範囲は極めて狭く、機械翻訳訓練データとは大きく異なることが多い。
既存のアイデアに基づいて新しいものを追加することで、必要な品質バーに到達することができます。
論文 参考訳(メタデータ) (2021-07-09T15:56:45Z) - End-to-End Lexically Constrained Machine Translation for Morphologically
Rich Languages [0.0]
本研究は, 機械翻訳による単語の正しいインフレクションを許容する機構について検討する。
英語とチェコ語のペアを用いた実験により, 自動評価と手動評価の両方において, 制約付き単語の翻訳が改良されることが示唆された。
論文 参考訳(メタデータ) (2021-06-23T13:40:13Z) - Improving Zero-Shot Translation by Disentangling Positional Information [24.02434897109097]
言語固有の表現を引き起こす主な要因は、入力トークンに対する位置対応であることを示す。
指示方向の品質を維持しながら、ゼロショット翻訳で最大18.5 BLEUポイントを得る。
論文 参考訳(メタデータ) (2020-12-30T12:20:41Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。