論文の概要: Robustness of Multi-Source MT to Transcription Errors
- arxiv url: http://arxiv.org/abs/2305.16894v1
- Date: Fri, 26 May 2023 12:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 15:05:52.660190
- Title: Robustness of Multi-Source MT to Transcription Errors
- Title(参考訳): マルチソースMTの符号誤りに対するロバスト性
- Authors: Dominik Mach\'a\v{c}ek, Peter Pol\'ak, Ond\v{r}ej Bojar, Raj Dabre
- Abstract要約: 多言語シナリオでは、同じ内容が同時解釈、ダビング、サブティチングを通じて様々な言語で利用することができる。
10時間のESICコーパスでは、原英語におけるASRの誤りと、ドイツ語とチェコ語への同時解釈が相互に独立していることが示されている。
この結果から,マルチソースニューラルマシン翻訳はリアルタイム同時翻訳において有用である可能性が示唆された。
- 参考スコア(独自算出の注目度): 9.045660146260467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech translation is sensitive to speech recognition errors, but
in a multilingual scenario, the same content may be available in various
languages via simultaneous interpreting, dubbing or subtitling. In this paper,
we hypothesize that leveraging multiple sources will improve translation
quality if the sources complement one another in terms of correct information
they contain. To this end, we first show that on a 10-hour ESIC corpus, the ASR
errors in the original English speech and its simultaneous interpreting into
German and Czech are mutually independent. We then use two sources, English and
German, in a multi-source setting for translation into Czech to establish its
robustness to ASR errors. Furthermore, we observe this robustness when
translating both noisy sources together in a simultaneous translation setting.
Our results show that multi-source neural machine translation has the potential
to be useful in a real-time simultaneous translation setting, thereby
motivating further investigation in this area.
- Abstract(参考訳): 自動翻訳は音声認識の誤りに敏感であるが、多言語シナリオでは、同時解釈、ダビング、置換によって同じ内容が様々な言語で利用可能である。
本稿では,複数の情報源を利用することで,情報源同士が補い合えば翻訳品質が向上する,という仮説を定式化する。
そこで本研究では、10時間のesicコーパスにおいて、原英語音声におけるasr誤りとそのドイツ語とチェコ語への同時解釈が相互に独立であることを示す。
次に、英語とドイツ語の2つのソースを使用してチェコ語への翻訳を行い、asrエラーに対する堅牢性を確立する。
さらに,両音源を同時に同時翻訳で翻訳する場合,この頑健さを観測する。
以上の結果から,マルチソースニューラルマシン翻訳は,リアルタイム同時翻訳に有用である可能性が示唆された。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Is Robustness Transferable across Languages in Multilingual Neural
Machine Translation? [45.04661608619081]
多言語ニューラルマシン翻訳における言語間のロバストネスの伝達性について検討する。
以上の結果から,一方の翻訳方向における頑健性は他の翻訳方向への変換が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-10-31T04:10:31Z) - Automatic Discrimination of Human and Neural Machine Translation in
Multilingual Scenarios [4.631167282648452]
我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
論文 参考訳(メタデータ) (2023-05-31T11:41:24Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - On the Influence of Machine Translation on Language Origin Obfuscation [0.3437656066916039]
本稿では、広く使われている2つの商用機械翻訳システムの翻訳結果から、ソースコードを検出する能力について分析する。
評価の結果,十分な量の翻訳文を含む文書に対して,ソースコードを高精度に再構築できることが示唆された。
論文 参考訳(メタデータ) (2021-06-24T08:33:24Z) - Lost in Interpreting: Speech Translation from Source or Interpreter? [0.0]
チェコ語とドイツ語を同時に解釈しながら、欧州議会の演説を英語で10時間の録音と書き起こしを公開します。
話者ベースおよびインタプリタベース音声翻訳システムの品質とレイテンシを英語からチェコ語に比較検討した。
論文 参考訳(メタデータ) (2021-06-17T09:32:49Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。