論文の概要: Controlling Formality in Low-Resource NMT with Domain Adaptation and
Re-Ranking: SLT-CDT-UoS at IWSLT2022
- arxiv url: http://arxiv.org/abs/2205.05990v1
- Date: Thu, 12 May 2022 09:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:49:27.508116
- Title: Controlling Formality in Low-Resource NMT with Domain Adaptation and
Re-Ranking: SLT-CDT-UoS at IWSLT2022
- Title(参考訳): IWSLT2022における低エネルギーNMTの領域適応と再配置による形式制御:SLT-CDT-UoS
- Authors: Sebastian T. Vincent, Lo\"ic Barrault, Carolina Scarton
- Abstract要約: 本稿では,SLT-CDT-UoSグループによる音声言語翻訳のための形式制御特別課題への提出について述べる。
私たちの取り組みは、データエンジニアリングと、最適な仮説選択のための目的関数の変更の2つの面で分割されました。
英語とドイツ語とスペイン語の試験セットでは、制約された設定では平均精度.935、制約のない設定では.995を達成しました。
- 参考スコア(独自算出の注目度): 4.348327991071386
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper describes the SLT-CDT-UoS group's submission to the first Special
Task on Formality Control for Spoken Language Translation, part of the IWSLT
2022 Evaluation Campaign. Our efforts were split between two fronts: data
engineering and altering the objective function for best hypothesis selection.
We used language-independent methods to extract formal and informal sentence
pairs from the provided corpora; using English as a pivot language, we
propagated formality annotations to languages treated as zero-shot in the task;
we also further improved formality controlling with a hypothesis re-ranking
approach. On the test sets for English-to-German and English-to-Spanish, we
achieved an average accuracy of .935 within the constrained setting and .995
within unconstrained setting. In a zero-shot setting for English-to-Russian and
English-to-Italian, we scored average accuracy of .590 for constrained setting
and .659 for unconstrained.
- Abstract(参考訳): 本稿では,SLT-CDT-UoSグループによる,IWSLT 2022評価キャンペーンの一環として,音声言語翻訳の形式制御に関する第1回特別課題への提出について述べる。
私たちの取り組みは、データエンジニアリングと、最適な仮説選択のための目的関数の変更の2つの面で分割されました。
我々は,提案するコーパスから形式的文対と形式的文対を抽出するのに言語に依存しない手法を用い,ピボット言語として英語を使用し,タスクにおいてゼロショットとして扱われる言語に形式的アノテーションを伝播させた。
英語とドイツ語とスペイン語の試験セットでは、制約された設定では.935、制約のない設定では.995を平均精度で達成した。
英語対ロシア語と英語対イタリア語のゼロショット設定では、制約された設定では平均精度が.590、制約なしでは.659であった。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - Breaking the Language Barrier: Can Direct Inference Outperform
Pre-Translation in Multilingual LLM Applications? [17.828943682809882]
本研究では,PaLM2モデルの文脈における事前翻訳の必要性を再評価する。
PaLM2-Lは108言語中94言語で翻訳前の性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-03-04T14:01:11Z) - NAVER LABS Europe's Multilingual Speech Translation Systems for the
IWSLT 2023 Low-Resource Track [78.80683163990446]
本稿では,IWSLT 2023low-Resource trackにおけるタマシェク・フレンチ・ケチュア・スペイン語音声翻訳のためのNAVER LABS Europeのシステムについて述べる。
本研究は,多言語パラメータ効率ソリューションを用いた低リソース環境における翻訳品質の最大化を試みる。
論文 参考訳(メタデータ) (2023-06-13T13:22:30Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - Controlling Translation Formality Using Pre-trained Multilingual
Language Models [19.465727478912072]
本稿では,メリーランド大学のiwsltにおける音声言語翻訳における形式性制御特別課題への提出について述べる。
本研究は,テキスト型多言語モデルを用いて,この問題にどの程度対処できるかを検討する。
その結果、この戦略は、専用翻訳モデルによって達成された翻訳品質と形式制御にアプローチできることが示唆された。
論文 参考訳(メタデータ) (2022-05-13T13:47:28Z) - Zero-Shot Cross-Lingual Transfer in Legal Domain Using Transformer
models [0.0]
マルチラベルテキスト分類において,英語からフランス語,ドイツ語へのゼロショット・クロスランガル変換について検討した。
我々は、法律文書のトピック分類のための英語データセットであるEURLEX57Kデータセットを拡張し、フランス語とドイツ語の公式翻訳を行った。
多言語事前訓練モデル(M-DistilBERT, M-BERT)の言語モデル微調整により, フランス語とドイツ語の相対的改善が32.0-34.94%, 76.15-87.54%となることがわかった。
論文 参考訳(メタデータ) (2021-11-28T16:25:04Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。