論文の概要: Controlling Formality in Low-Resource NMT with Domain Adaptation and
Re-Ranking: SLT-CDT-UoS at IWSLT2022
- arxiv url: http://arxiv.org/abs/2205.05990v1
- Date: Thu, 12 May 2022 09:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:49:27.508116
- Title: Controlling Formality in Low-Resource NMT with Domain Adaptation and
Re-Ranking: SLT-CDT-UoS at IWSLT2022
- Title(参考訳): IWSLT2022における低エネルギーNMTの領域適応と再配置による形式制御:SLT-CDT-UoS
- Authors: Sebastian T. Vincent, Lo\"ic Barrault, Carolina Scarton
- Abstract要約: 本稿では,SLT-CDT-UoSグループによる音声言語翻訳のための形式制御特別課題への提出について述べる。
私たちの取り組みは、データエンジニアリングと、最適な仮説選択のための目的関数の変更の2つの面で分割されました。
英語とドイツ語とスペイン語の試験セットでは、制約された設定では平均精度.935、制約のない設定では.995を達成しました。
- 参考スコア(独自算出の注目度): 4.348327991071386
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper describes the SLT-CDT-UoS group's submission to the first Special
Task on Formality Control for Spoken Language Translation, part of the IWSLT
2022 Evaluation Campaign. Our efforts were split between two fronts: data
engineering and altering the objective function for best hypothesis selection.
We used language-independent methods to extract formal and informal sentence
pairs from the provided corpora; using English as a pivot language, we
propagated formality annotations to languages treated as zero-shot in the task;
we also further improved formality controlling with a hypothesis re-ranking
approach. On the test sets for English-to-German and English-to-Spanish, we
achieved an average accuracy of .935 within the constrained setting and .995
within unconstrained setting. In a zero-shot setting for English-to-Russian and
English-to-Italian, we scored average accuracy of .590 for constrained setting
and .659 for unconstrained.
- Abstract(参考訳): 本稿では,SLT-CDT-UoSグループによる,IWSLT 2022評価キャンペーンの一環として,音声言語翻訳の形式制御に関する第1回特別課題への提出について述べる。
私たちの取り組みは、データエンジニアリングと、最適な仮説選択のための目的関数の変更の2つの面で分割されました。
我々は,提案するコーパスから形式的文対と形式的文対を抽出するのに言語に依存しない手法を用い,ピボット言語として英語を使用し,タスクにおいてゼロショットとして扱われる言語に形式的アノテーションを伝播させた。
英語とドイツ語とスペイン語の試験セットでは、制約された設定では.935、制約のない設定では.995を平均精度で達成した。
英語対ロシア語と英語対イタリア語のゼロショット設定では、制約された設定では平均精度が.590、制約なしでは.659であった。
関連論文リスト
- Controlling Translation Formality Using Pre-trained Multilingual
Language Models [19.465727478912072]
本稿では,メリーランド大学のiwsltにおける音声言語翻訳における形式性制御特別課題への提出について述べる。
本研究は,テキスト型多言語モデルを用いて,この問題にどの程度対処できるかを検討する。
その結果、この戦略は、専用翻訳モデルによって達成された翻訳品質と形式制御にアプローチできることが示唆された。
論文 参考訳(メタデータ) (2022-05-13T13:47:28Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Zero-Shot Cross-Lingual Transfer in Legal Domain Using Transformer
models [0.0]
マルチラベルテキスト分類において,英語からフランス語,ドイツ語へのゼロショット・クロスランガル変換について検討した。
我々は、法律文書のトピック分類のための英語データセットであるEURLEX57Kデータセットを拡張し、フランス語とドイツ語の公式翻訳を行った。
多言語事前訓練モデル(M-DistilBERT, M-BERT)の言語モデル微調整により, フランス語とドイツ語の相対的改善が32.0-34.94%, 76.15-87.54%となることがわかった。
論文 参考訳(メタデータ) (2021-11-28T16:25:04Z) - Monolingual and Cross-Lingual Acceptability Judgments with the Italian
CoLA corpus [2.418273287232718]
ItaCoLAコーパスは,受理性判定を伴う約1万文を含む。
また、多言語トランスフォーマーに基づくアプローチが、微調整中に2つの言語で文を使うことのメリットを評価できるかを評価することを目的とした、最初の言語間実験も提示する。
論文 参考訳(メタデータ) (2021-09-24T16:18:53Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。
本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。
その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-06-03T10:18:43Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。