Fugu-MT 論文翻訳(概要): Improved statistical machine translation using monolingual paraphrases

論文の概要: Improved statistical machine translation using monolingual paraphrases

arxiv url: http://arxiv.org/abs/2109.15119v1
Date: Sat, 25 Sep 2021 16:29:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-03 10:42:05.836944
Title: Improved statistical machine translation using monolingual paraphrases
Title（参考訳）: 単言語paraphrasesを用いた統計的機械翻訳の改良
Authors: Preslav Nakov
Abstract要約: 統計的機械翻訳システムの学習データを「無料」に拡張するための新しい単言語文言い換え法を提案する。名詞化合物を適切な前置詞を用いて言い換える文変種と副詞を生成する。評価の結果,トレーニングデータの2倍の33%～50%の改善が見られた。
参考スコア（独自算出の注目度）: 20.50917929755389
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel monolingual sentence paraphrasing method for augmenting the training data for statistical machine translation systems "for free" -- by creating it from data that is already available rather than having to create more aligned data. Starting with a syntactic tree, we recursively generate new sentence variants where noun compounds are paraphrased using suitable prepositions, and vice-versa -- preposition-containing noun phrases are turned into noun compounds. The evaluation shows an improvement equivalent to 33%-50% of that of doubling the amount of training data.
Abstract（参考訳）: 本稿では,統計的機械翻訳システムの学習データを「無償」に拡張するための,一言語文の新たなパラフレーズ化手法を提案する。構文木から始めて、名詞化合物が適切な前置詞を用いてパラフレーズ化される新しい文変種を再帰的に生成し、副詞-前置詞を含む名詞句を名詞化合物に変換する。評価の結果,トレーニングデータの倍増による改善率は33%～50%であった。

関連論文リスト

Self-Vocabularizing Training for Neural Machine Translation [15.700883057259931]
トレーニングされた翻訳モデルは、元のBPE語彙とは別個のBPE語彙反復を用いて、バイトペア符号化サブセット(BPE)を使用するように誘導される。我々は,より小さく,より最適な語彙を自己選択する反復的手法である自己語彙学習を提案し,最大1.49BLEUの改善をもたらす。
論文参考訳（メタデータ） (2025-03-18T02:21:07Z)
Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-09T04:52:31Z)
CompoundPiece: Evaluating and Improving Decompounding Performance of Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。 We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。分割のための専用モデルを訓練するための新しい手法を導入する。
論文参考訳（メタデータ） (2023-05-23T16:32:27Z)
DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文参考訳（メタデータ） (2021-11-14T17:28:09Z)
Cross-language Sentence Selection via Data Augmentation and Rationale Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文参考訳（メタデータ） (2021-06-04T07:08:47Z)
Self-Training Sampling with Monolingual Data Uncertainty for Neural Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2021-06-02T05:01:36Z)
Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。一つの例から5つの例への適応が可能であることを示す。本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文参考訳（メタデータ） (2021-03-31T09:05:43Z)
Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。文中の役割を考慮し,単語選択のための文特異的確率を設定した。提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文参考訳（メタデータ） (2020-04-29T13:45:30Z)
Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文参考訳（メタデータ） (2020-04-05T02:14:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。