論文の概要: Cost-Effective Training in Low-Resource Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2201.05700v1
- Date: Fri, 14 Jan 2022 22:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 18:46:00.317429
- Title: Cost-Effective Training in Low-Resource Neural Machine Translation
- Title(参考訳): 低リソースニューラルマシン翻訳におけるコスト効率の訓練
- Authors: Sai Koneru, Danni Liu, Jan Niehues
- Abstract要約: そこで本研究では,少数の注釈文と辞書エントリを用いたNMTモデルの性能向上のための費用対効果トレーニング手法を提案する。
これらの知識源の組み合わせによるモデルの改善は、AL戦略の活用と低リソース条件での利得向上に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 12.968557512440759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Active Learning (AL) techniques are explored in Neural Machine
Translation (NMT), only a few works focus on tackling low annotation budgets
where a limited number of sentences can get translated. Such situations are
especially challenging and can occur for endangered languages with few human
annotators or having cost constraints to label large amounts of data. Although
AL is shown to be helpful with large budgets, it is not enough to build
high-quality translation systems in these low-resource conditions. In this
work, we propose a cost-effective training procedure to increase the
performance of NMT models utilizing a small number of annotated sentences and
dictionary entries. Our method leverages monolingual data with self-supervised
objectives and a small-scale, inexpensive dictionary for additional supervision
to initialize the NMT model before applying AL. We show that improving the
model using a combination of these knowledge sources is essential to exploit AL
strategies and increase gains in low-resource conditions. We also present a
novel AL strategy inspired by domain adaptation for NMT and show that it is
effective for low budgets. We propose a new hybrid data-driven approach, which
samples sentences that are diverse from the labelled data and also most similar
to unlabelled data. Finally, we show that initializing the NMT model and
further using our AL strategy can achieve gains of up to $13$ BLEU compared to
conventional AL methods.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)では、アクティブラーニング(AL)技術が研究されているが、限られた数の文が翻訳できる低いアノテーション予算に対処することに注力する研究はほとんどない。
このような状況は特に困難であり、人間の注釈がほとんどない絶滅危惧言語や、大量のデータをラベル付けするためのコスト制約によって起こりうる。
alは大規模な予算で役立つことが示されているが、低リソース環境で高品質な翻訳システムを構築するには不十分である。
本研究では,少数の注釈文と辞書エントリを用いたNMTモデルの性能向上のための費用対効果トレーニング手法を提案する。
本手法は,単言語データと自己教師対象データと,ALを適用する前にNMTモデルを初期化するための小型かつ安価な辞書を利用する。
これらの知識源の組み合わせによるモデルの改善は、AL戦略の活用と低リソース条件での利得向上に不可欠であることを示す。
また,NMTのドメイン適応にインスパイアされた新たなAL戦略を提案し,低予算で有効であることを示す。
ラベル付きデータから多様な文を抽出し,ラベル付きデータに最も近い文を抽出できる,新しいハイブリッドデータ駆動手法を提案する。
最後に,NMTモデルの初期化とAL戦略のさらなる活用により,従来のAL手法と比較して最大13ドルBLEUの利益が得られることを示す。
関連論文リスト
- CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili [1.9686054517684888]
機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
論文 参考訳(メタデータ) (2023-06-12T20:43:24Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Low-Resource Machine Translation for Low-Resource Languages: Leveraging
Comparable Data, Code-Switching and Compute Resources [4.119597443825115]
我々は,真の低資源言語に対する教師なしニューラルマシン翻訳(nmt)の実証研究を行っている。
バイリンガル辞書を用いた類似のデータマイニングと、モデルのトレーニングに控えめな計算リソースを追加することで、パフォーマンスが大幅に向上することを示す。
私たちの仕事は、低リソースNMTにおける異なる控えめな計算資源の影響を定量的に示す最初のものです。
論文 参考訳(メタデータ) (2021-03-24T15:40:28Z) - Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。
トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文 参考訳(メタデータ) (2021-03-14T22:12:14Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。