論文の概要: How Transferable are Attribute Controllers on Pretrained Multilingual
Translation Models?
- arxiv url: http://arxiv.org/abs/2309.08565v1
- Date: Fri, 15 Sep 2023 17:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:29:31.454934
- Title: How Transferable are Attribute Controllers on Pretrained Multilingual
Translation Models?
- Title(参考訳): 事前学習多言語翻訳モデルにおける属性制御はどの程度の変換可能か?
- Authors: Danni Liu, Jan Niehues
- Abstract要約: 事前学習したNLLB-200モデルに基づいて,属性コントローラの転送に関する包括的解析を行う。
5つのゼロショット方向における一貫した改善によって示されるように、両方のパラダイムが相補的であることを示す。
実際の低リソース言語であるBengaliに対する人間による評価は、ゼロショットの新たなターゲット言語への転送に関する我々の発見を裏付けるものである。
- 参考スコア(独自算出の注目度): 24.52091708640067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customizing machine translation models to comply with fine-grained attributes
such as formality has seen tremendous progress recently. However, current
approaches mostly rely on at least some supervised data with attribute
annotation. Data scarcity therefore remains a bottleneck to democratizing such
customization possibilities to a wider range of languages, lower-resource ones
in particular. Given recent progress in pretrained massively multilingual
translation models, we use them as a foundation to transfer the attribute
controlling capabilities to languages without supervised data. In this work, we
present a comprehensive analysis of transferring attribute controllers based on
a pretrained NLLB-200 model. We investigate both training- and inference-time
control techniques under various data scenarios, and uncover their relative
strengths and weaknesses in zero-shot performance and domain robustness. We
show that both paradigms are complementary, as shown by consistent improvements
on 5 zero-shot directions. Moreover, a human evaluation on a real low-resource
language, Bengali, confirms our findings on zero-shot transfer to new target
languages. The code is
$\href{https://github.com/dannigt/attribute-controller-transfer}{\text{here}}$.
- Abstract(参考訳): フォーマル性などのきめ細かい属性に準拠する機械翻訳モデルのカスタマイズは、最近大きな進歩を遂げている。
しかし、現在のアプローチは属性アノテーションを持つ少なくともいくつかの教師付きデータに依存している。
それゆえ、データの不足は、このようなカスタマイズの可能性をより広い範囲の言語、特に低リソース言語に民主化する上でのボトルネックである。
事前訓練された多言語翻訳モデルの最近の進歩を踏まえ、属性制御能力を教師付きデータなしで言語に転送する基盤として利用する。
本稿では,事前学習されたnllb-200モデルに基づく属性コントローラの転送に関する包括的解析を行う。
各種データシナリオ下でのトレーニング時間と推論時間の両方の制御手法について検討し、ゼロショット性能とドメインの堅牢性における相対的な強みと弱点を明らかにする。
5つのゼロショット方向の一貫した改善によって示されるように、両方のパラダイムは相補的である。
さらに、実際の低リソース言語であるbengaliに対する人間による評価では、ゼロショットトランスファーに関する知見が新たなターゲット言語に確認されている。
コードは$\href{https://github.com/dannigt/attribute-controller-transfer}{\text{here}}$である。
関連論文リスト
- ParroT: Translating during Chat using Large Language Models tuned with
Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。
本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文 参考訳(メタデータ) (2023-04-05T13:12:00Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - Improving Zero-Shot Translation by Disentangling Positional Information [24.02434897109097]
言語固有の表現を引き起こす主な要因は、入力トークンに対する位置対応であることを示す。
指示方向の品質を維持しながら、ゼロショット翻訳で最大18.5 BLEUポイントを得る。
論文 参考訳(メタデータ) (2020-12-30T12:20:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。