論文の概要: Can Synthetic Translations Improve Bitext Quality?
- arxiv url: http://arxiv.org/abs/2203.07643v1
- Date: Tue, 15 Mar 2022 04:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 07:27:29.948851
- Title: Can Synthetic Translations Improve Bitext Quality?
- Title(参考訳): 合成翻訳はテキストの品質を向上できるか?
- Authors: Eleftheria Briakou and Marine Carpuat
- Abstract要約: この研究は、人工翻訳を用いて、採掘されたbitextにおける潜在的に不完全な参照翻訳を改訂する方法を探求する。
合成サンプルは、原文を置き換える際に、追加のバイリンガル・インシュアランスを使わずに、bitextの品質を向上させることができる。
- 参考スコア(独自算出の注目度): 28.910206570036593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic translations have been used for a wide range of NLP tasks primarily
as a means of data augmentation. This work explores, instead, how synthetic
translations can be used to revise potentially imperfect reference translations
in mined bitext. We find that synthetic samples can improve bitext quality
without any additional bilingual supervision when they replace the originals
based on a semantic equivalence classifier that helps mitigate NMT noise. The
improved quality of the revised bitext is confirmed intrinsically via human
evaluation and extrinsically through bilingual induction and MT tasks.
- Abstract(参考訳): 合成翻訳は、主にデータ拡張の手段として、幅広いNLPタスクに使われてきた。
この研究は、どのように合成翻訳を用いて、採掘されたbitextにおける潜在的に不完全な参照翻訳を修正できるかを探求する。
合成サンプルは,nmtノイズを緩和する意味同値分類器に基づいて原文を置き換える際に,追加のバイリンガルの監督なしにバイテキストの品質を向上させることができる。
改良されたbitextの品質は、人間による評価によって本質的に確認され、バイリンガル誘導およびMTタスクを介して外因的に確認される。
関連論文リスト
- (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Do GPTs Produce Less Literal Translations? [20.095646048167612]
大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。
GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、機械翻訳の品質指標に類似またはより良いスコアが示されることがわかりました。
論文 参考訳(メタデータ) (2023-05-26T10:38:31Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Lost in Translationese? Reducing Translation Effect Using Abstract
Meaning Representation [11.358350306918027]
抽象的意味表現(AMR)は、翻訳文中の翻訳文の量を減らし、インターリンガとして使用できると論じる。
英語の翻訳をAMRに解析し、そのAMRからテキストを生成することで、その結果は元々の英語のテキストとよりよく似ている。
この研究は、テキストの翻訳を減らし、言語間言語としてのAMRの有用性を強調している。
論文 参考訳(メタデータ) (2023-04-23T00:04:14Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Exploiting Curriculum Learning in Unsupervised Neural Machine
Translation [28.75229367700697]
複数の粒度から擬似バイテキストを徐々に活用するカリキュラム学習手法を提案する。
WMT 14 En-Fr, WMT 16 En-De, WMT 16 En-Ro, LDC En-Zh 翻訳タスクの実験結果から,提案手法はより高速な収束速度で一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2021-09-23T07:18:06Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。