論文の概要: AppTek's Submission to the IWSLT 2022 Isometric Spoken Language
Translation Task
- arxiv url: http://arxiv.org/abs/2205.05807v1
- Date: Thu, 12 May 2022 00:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 02:04:01.836094
- Title: AppTek's Submission to the IWSLT 2022 Isometric Spoken Language
Translation Task
- Title(参考訳): AppTekのIWSLT 2022への提出
- Authors: Patrick Wilken, Evgeny Matusov
- Abstract要約: AppTekは、英語からドイツ語への翻訳のためのニューラルトランスフォーマーベースのシステムを開発した。
良好な品質/所望長トレードオフを実現するために, 長さ対応の後方転写および前方転写合成データが重要であった。
- 参考スコア(独自算出の注目度): 1.6879093388124957
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To participate in the Isometric Spoken Language Translation Task of the IWSLT
2022 evaluation, constrained condition, AppTek developed neural
Transformer-based systems for English-to-German with various mechanisms of
length control, ranging from source-side and target-side pseudo-tokens to
encoding of remaining length in characters that replaces positional encoding.
We further increased translation length compliance by sentence-level selection
of length-compliant hypotheses from different system variants, as well as
rescoring of N-best candidates from a single system. Length-compliant
back-translated and forward-translated synthetic data, as well as other
parallel data variants derived from the original MuST-C training corpus were
important for a good quality/desired length trade-off. Our experimental results
show that length compliance levels above 90% can be reached while minimizing
losses in MT quality as measured in BERT and BLEU scores.
- Abstract(参考訳): IWSLT 2022の評価において、Isometric Spoken Language Translation Taskに参加するために、AppTekは、ソース側とターゲット側擬似トークンから、位置符号化を置き換える文字の残りの長さの符号化まで、様々な長さ制御機構を備えた英語からドイツ語へのニューラルトランスフォーマーベースのシステムを開発した。
さらに、異なるシステム変種からの長さ対応仮説を文レベルで選択し、N-best候補を単一システムから再構成することで、翻訳長のコンプライアンスを向上する。
また,MST-Cトレーニングコーパスから派生した他の並列データ変種も良好な品質/所望長トレードオフのために重要であった。
実験結果から,BERTおよびBLEUスコアで測定したMT品質の損失を最小限に抑えつつ,90%以上の長さコンプライアンスレベルに達することが示唆された。
関連論文リスト
- Towards Inducing Document-Level Abilities in Standard Multilingual Neural Machine Translation Models [4.625277907331917]
この研究は、訓練済みのNMTモデルを絶対正弦波のPEから相対的なPEに移行するという課題に対処する。
パラメータ効率のよい微調整は,少量の高品質なデータしか利用せず,この遷移をうまく促進できることを示す。
いくつかの言語における少量の長文データが、言語間長の一般化に十分であることがわかった。
論文 参考訳(メタデータ) (2024-08-21T07:23:34Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - IsometricMT: Neural Machine Translation for Automatic Dubbing [9.605781943224251]
この研究は、トランスフォーマーモデルが直接学習して、ソース長と密接に一致する出力を生成することができる自己学習アプローチを導入している。
TED Talkデータに基づく4つの言語対と公開ベンチマークの結果を報告する。
論文 参考訳(メタデータ) (2021-12-16T08:03:20Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline
Task [23.008938777422767]
本稿では,IWSLT 2021オフラインタスクに対して,NuTransのエンドツーエンド音声翻訳システムを提案する。
我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。
我々は MuST-C En-De テストセット上で 33.84 BLEU 点を達成する。
論文 参考訳(メタデータ) (2021-07-06T07:45:23Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - NLPDove at SemEval-2020 Task 12: Improving Offensive Language Detection
with Cross-lingual Transfer [10.007363787391952]
本稿では,攻撃的言語を多言語で識別する手法について述べる。
本研究では,異なるしきい値を持つ半教師付きラベルの追加と,データ選択による言語間移動という2つのデータ拡張戦略について検討する。
われわれの多言語システムはOffensEval 2020でギリシャ語、デンマーク語、トルコ語で競争の結果を得た。
論文 参考訳(メタデータ) (2020-08-04T06:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。