Fugu-MT 論文翻訳(概要): AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT

論文の概要: AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT

arxiv url: http://arxiv.org/abs/2106.05141v1
Date: Wed, 9 Jun 2021 15:29:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 21:32:22.855335
Title: AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT
Title（参考訳）: augvic:低リソースnmtでバイテキストを活用
Authors: Tasnim Mohiuddin, M Saiful Bari, Shafiq Joty
Abstract要約: AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。 AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
参考スコア（独自算出の注目度）: 9.797319790710711
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The success of Neural Machine Translation (NMT) largely depends on the availability of large bitext training corpora. Due to the lack of such large corpora in low-resource language pairs, NMT systems often exhibit poor performance. Extra relevant monolingual data often helps, but acquiring it could be quite expensive, especially for low-resource languages. Moreover, domain mismatch between bitext (train/test) and monolingual data might degrade the performance. To alleviate such issues, we propose AUGVIC, a novel data augmentation framework for low-resource NMT which exploits the vicinal samples of the given bitext without using any extra monolingual data explicitly. It can diversify the in-domain bitext data with finer level control. Through extensive experiments on four low-resource language pairs comprising data from different domains, we have shown that our method is comparable to the traditional back-translation that uses extra in-domain monolingual data. When we combine the synthetic parallel data generated from AUGVIC with the ones from the extra monolingual data, we achieve further improvements. We show that AUGVIC helps to attenuate the discrepancies between relevant and distant-domain monolingual data in traditional back-translation. To understand the contributions of different components of AUGVIC, we perform an in-depth framework analysis.
Abstract（参考訳）: Neural Machine Translation (NMT)の成功は、大きなbitextトレーニングコーパスの可用性に大きく依存している。低リソース言語対にそのような大きなコーパスがないため、NMTシステムは性能が劣ることが多い。特有な単言語データはしばしば役立つが、それを取得することは、特に低リソース言語にとって非常に高価である。さらに、bitext(train/test)とモノリンガルデータのドメインミスマッチはパフォーマンスを低下させる可能性がある。このような問題を緩和するために、我々は低リソースNMTのための新しいデータ拡張フレームワークであるAUGVICを提案し、このフレームワークは、余分なモノリンガルデータを明示的に使用することなく、与えられたbitextのビジナルサンプルを利用する。ドメイン内のbitextデータをより細かいレベル制御で多様化することができる。異なるドメインからのデータからなる4つの低リソース言語ペアに関する広範な実験を通して、我々の手法は、余分なドメイン内モノリンガルデータを使用する従来のバックトランスレーションに匹敵することを示した。 AUGVICから生成された合成並列データと余分な単言語データとを組み合わせると、さらなる改善が達成される。 AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和する。 AUGVICの様々なコンポーネントのコントリビューションを理解するために、我々は詳細なフレームワーク分析を行う。

関連論文リスト

End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data [5.950263765640278]
本稿では、弱いラベル付きデータを用いて音声からテキストへの翻訳モデルを構築することができるという仮説を考察する。我々は、最先端の文エンコーダを用いて、Bitextマイニングの助けを借りてデータセットを構築した。以上の結果から,STシステムはマルチモーダルな多言語ベースラインに匹敵する性能を持つ弱いラベル付きデータで構築可能であることが示された。
論文参考訳（メタデータ） (2025-06-19T12:11:01Z)
Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文参考訳（メタデータ） (2025-04-20T16:20:30Z)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T14:53:49Z)
From Priest to Doctor: Domain Adaptation for Low-Resource Neural Machine Translation [3.666125285899499]
多くの言語は、高性能汎用ニューラルネットワーク翻訳(NMT)モデルを訓練するのに不十分なデータを持っている。世界中の言語の多くは、高性能汎用ニューラルマシン翻訳(NMT)モデルをトレーニングするのに不十分なデータを持っている。
論文参考訳（メタデータ） (2024-12-01T21:06:08Z)
Low-Resource Machine Translation through the Lens of Personalized Federated Learning [26.436144338377755]
異種データを用いた自然言語処理に適用可能な新しい手法を提案する。大規模多言語機械翻訳共有タスクのデータセットを用いて,低リソース機械翻訳タスク上で評価を行った。 MeritFedは、その効果に加えて、トレーニングに使用する各言語の影響を追跡するために適用できるため、高度に解釈可能である。
論文参考訳（メタデータ） (2024-06-18T12:50:00Z)
Cross-lingual Transfer or Machine Translation? On Data Augmentation for Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文参考訳（メタデータ） (2024-03-08T12:28:15Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文参考訳（メタデータ） (2023-08-25T17:13:20Z)
When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale [73.69252847606212]
自動符号化(DAE)と逆翻訳(BT)が機械翻訳(MMT)に与える影響について検討する。モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。
論文参考訳（メタデータ） (2023-05-23T14:48:42Z)
Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。 OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文参考訳（メタデータ） (2023-05-04T12:21:52Z)
Exploiting Language Relatedness in Machine Translation Through Domain Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文参考訳（メタデータ） (2023-03-03T09:07:30Z)
Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。 CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文参考訳（メタデータ） (2022-04-14T08:16:28Z)
Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文参考訳（メタデータ） (2021-05-09T14:49:07Z)
Leveraging Monolingual Data with Self-Supervision for Multilingual Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。自己監督は多言語モデルのゼロショット翻訳品質を改善する。並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文参考訳（メタデータ） (2020-05-11T00:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。