論文の概要: How Transferable are Attribute Controllers on Pretrained Multilingual
Translation Models?
- arxiv url: http://arxiv.org/abs/2309.08565v3
- Date: Wed, 24 Jan 2024 17:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-25 17:15:26.254144
- Title: How Transferable are Attribute Controllers on Pretrained Multilingual
Translation Models?
- Title(参考訳): 事前学習多言語翻訳モデルにおける属性制御はどの程度の変換可能か?
- Authors: Danni Liu, Jan Niehues
- Abstract要約: 現在のアプローチは属性アノテーションを持つ(半教師付き)データに依存しています。
このギャップは、事前訓練された大規模多言語翻訳モデルの最近の進歩と同期していない。
我々は、事前訓練されたモデルを操るために勾配に基づく推論時間コントローラを用いる。
- 参考スコア(独自算出の注目度): 24.52091708640067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customizing machine translation models to comply with desired attributes
(e.g., formality or grammatical gender) is a well-studied topic. However, most
current approaches rely on (semi-)supervised data with attribute annotations.
This data scarcity bottlenecks democratizing such customization possibilities
to a wider range of languages, particularly lower-resource ones. This gap is
out of sync with recent progress in pretrained massively multilingual
translation models. In response, we transfer the attribute controlling
capabilities to languages without attribute-annotated data with an NLLB-200
model as a foundation. Inspired by techniques from controllable generation, we
employ a gradient-based inference-time controller to steer the pretrained
model. The controller transfers well to zero-shot conditions, as it operates on
pretrained multilingual representations and is attribute -- rather than
language-specific. With a comprehensive comparison to finetuning-based control,
we demonstrate that, despite finetuning's clear dominance in supervised
settings, the gap to inference-time control closes when moving to zero-shot
conditions, especially with new and distant target languages. The latter also
shows stronger domain robustness. We further show that our inference-time
control complements finetuning. A human evaluation on a real low-resource
language, Bengali, confirms our findings. Our code is
https://github.com/dannigt/attribute-controller-transfer
- Abstract(参考訳): 所望の属性(形式性や文法性など)に従うように機械翻訳モデルをカスタマイズすることは、よく研究されているトピックである。
しかし、現在のアプローチのほとんどは属性アノテーション付きの(半)教師付きデータに依存している。
このデータ不足のボトルネックは、このようなカスタマイズ可能性の民主化を、より広い範囲の言語、特に低リソース言語にもたらす。
このギャップは、事前訓練された多言語翻訳モデルの最近の進歩と一致していない。
また,nllb-200を基盤として属性付与データを用いずに属性制御機能を言語に転送する。
制御可能生成の手法に着想を得て,事前学習したモデルを制御するために勾配に基づく推論時間制御器を用いる。
コントローラは事前訓練された多言語表現で動作し、言語固有のものではなく属性であるため、ゼロショット条件によく転送される。
微調整に基づく制御との包括的比較により,教師付き設定において微調整が支配的であるにもかかわらず,ゼロショット条件,特に新しいターゲット言語において,推論時間制御へのギャップが閉ざされていることを実証する。
後者はより強固なドメインロバスト性を示す。
さらに、推論時間制御が微調整を補完することを示す。
実際の低リソース言語であるBengaliに対する人間による評価は、我々の発見を裏付けるものである。
私たちのコードはhttps://github.com/dannigt/attribute-controller-transferです。
関連論文リスト
- ParroT: Translating during Chat using Large Language Models tuned with
Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。
本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文 参考訳(メタデータ) (2023-04-05T13:12:00Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - Improving Zero-Shot Translation by Disentangling Positional Information [24.02434897109097]
言語固有の表現を引き起こす主な要因は、入力トークンに対する位置対応であることを示す。
指示方向の品質を維持しながら、ゼロショット翻訳で最大18.5 BLEUポイントを得る。
論文 参考訳(メタデータ) (2020-12-30T12:20:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。