論文の概要: Principled Paraphrase Generation with Parallel Corpora
- arxiv url: http://arxiv.org/abs/2205.12213v1
- Date: Tue, 24 May 2022 17:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 17:44:10.726387
- Title: Principled Paraphrase Generation with Parallel Corpora
- Title(参考訳): 並列コーパスを用いた原理的パラフレーズ生成
- Authors: Aitor Ormazabal, Mikel Artetxe, Gorka Labaka, Aitor Soroa and Eneko
Agirre
- Abstract要約: ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
- 参考スコア(独自算出の注目度): 52.78059089341062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Round-trip Machine Translation (MT) is a popular choice for paraphrase
generation, which leverages readily available parallel corpora for supervision.
In this paper, we formalize the implicit similarity function induced by this
approach, and show that it is susceptible to non-paraphrase pairs sharing a
single ambiguous translation. Based on these insights, we design an alternative
similarity metric that mitigates this issue by requiring the entire translation
distribution to match, and implement a relaxation of it through the Information
Bottleneck method. Our approach incorporates an adversarial term into MT
training in order to learn representations that encode as much information
about the reference translation as possible, while keeping as little
information about the input as possible. Paraphrases can be generated by
decoding back to the source from this representation, without having to
generate pivot translations. In addition to being more principled and efficient
than round-trip MT, our approach offers an adjustable parameter to control the
fidelity-diversity trade-off, and obtains better results in our experiments.
- Abstract(参考訳): ラウンドトリップ機械翻訳(MT)は、容易に利用可能な並列コーパスを利用したパラフレーズ生成の一般的な選択である。
本稿では,このアプローチによって引き起こされる暗黙的類似性関数を定式化し,非パラフローゼ対が1つの曖昧な翻訳を共有できることを示す。
これらの知見に基づいて, 翻訳分布全体を一致させ, 情報ボトルネック法による緩和を実現することにより, この問題を緩和する代替類似度指標を考案する。
提案手法では,入力に関する情報を極力少ないまま,参照翻訳に関する情報をできるだけ多くエンコードする表現を学習するために,MT訓練に敵対語を組み込む。
パラフレーズは、ピボット変換を生成することなく、この表現からソースにデコードすることで生成することができる。
ラウンドトリップmtよりも原理的かつ効率的であることに加えて,忠実度-多様性トレードオフを制御するための調整可能なパラメータを提供し,実験でより良い結果を得る。
関連論文リスト
- Translating away Translationese without Parallel Data [14.423809260672877]
翻訳されたテキストは、同じ言語の原文と比較して体系的な言語的差異を示す。
本稿では,翻訳文の翻訳文を減らすための新しい手法について検討する。
自己監督損失と教師なし損失を組み合わせて並列検証データの必要性を解消する方法を示す。
論文 参考訳(メタデータ) (2023-10-28T22:11:25Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - As Little as Possible, as Much as Necessary: Detecting Over- and
Undertranslations with Contrastive Conditioning [42.46681912294797]
本稿では,ニューラルマシン翻訳における過剰な単語の検出手法を提案する。
我々は,翻訳モデルに基づく全列の確率と,対応するソースやターゲットシーケンスを考慮に入れた部分の確率を比較する。
これにより、参照翻訳がなくても、翻訳中の過剰な単語とソース内の未翻訳の単語をピンポイントで特定することができる。
論文 参考訳(メタデータ) (2022-03-03T18:59:02Z) - Uncertainty-Aware Semantic Augmentation for Neural Machine Translation [37.555675157198145]
本稿では,複数の意味的に等価なソース文間の普遍的な意味情報を明示的にキャプチャする不確実性を考慮した意味拡張を提案する。
我々のアプローチは、強いベースラインと既存の手法を大きく上回る。
論文 参考訳(メタデータ) (2020-10-09T07:48:09Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z) - Explicit Sentence Compression for Neural Machine Translation [110.98786673598016]
State-of-the-the-art Transformer-based Neural Machine Translation (NMT)システムはまだ標準のエンコーダデコーダフレームワークに従っている。
バックボーン情報は 文のギストを表すもので 具体的には 焦点を絞っていません
提案手法は,NMTのソース文表現を強化するための明示的な文圧縮手法である。
論文 参考訳(メタデータ) (2019-12-27T04:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。