論文の概要: Is "moby dick" a Whale or a Bird? Named Entities and Terminology in
Speech Translation
- arxiv url: http://arxiv.org/abs/2109.07439v1
- Date: Wed, 15 Sep 2021 17:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:04:25.496538
- Title: Is "moby dick" a Whale or a Bird? Named Entities and Terminology in
Speech Translation
- Title(参考訳): モービー・ディック」はクジラか鳥ですか。
音声翻訳における名前付きエンティティと用語
- Authors: Marco Gaido, Susana Rodr\'iguez, Matteo Negri, Luisa Bentivogli and
Marco Turchi
- Abstract要約: NEと用語の翻訳における最先端STシステムの挙動に関する最初の体系的解析を行った。
また、NEと用語で注釈付けされた欧州議会の演説から構築された新しいベンチマークであるNEuRoparl-STをリリースする。
- 参考スコア(独自算出の注目度): 13.870736341442841
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic translation systems are known to struggle with rare words. Among
these, named entities (NEs) and domain-specific terms are crucial, since errors
in their translation can lead to severe meaning distortions. Despite their
importance, previous speech translation (ST) studies have neglected them, also
due to the dearth of publicly available resources tailored to their specific
evaluation. To fill this gap, we i) present the first systematic analysis of
the behavior of state-of-the-art ST systems in translating NEs and terminology,
and ii) release NEuRoparl-ST, a novel benchmark built from European Parliament
speeches annotated with NEs and terminology. Our experiments on the three
language directions covered by our benchmark (en->es/fr/it) show that ST
systems correctly translate 75-80% of terms and 65-70% of NEs, with very low
performance (37-40%) on person names.
- Abstract(参考訳): 自動翻訳システムは稀な単語に苦しむことが知られている。
これらのうち、名前付きエンティティ(nes)とドメイン固有の用語は、翻訳の誤りが深刻な意味の歪みを引き起こす可能性があるため、重要である。
その重要性にもかかわらず、以前の音声翻訳(ST)研究はそれらを無視してきた。
このギャップを埋めるために
一 NEと用語の翻訳における最先端STシステムの挙動に関する最初の系統的分析及び
二 欧州議会の演説にnes及び用語を注釈した新しいベンチマークであるneuroparl-stをリリースすること。
我々のベンチマーク(en->es/fr/it)による3つの言語方向に関する実験では、STシステムは75-80%の用語と65-70%のNEを正しく翻訳し、人名に対して非常に低い性能(37-40%)を示す。
関連論文リスト
- Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody? [7.682929772871941]
韻律は音声からテキストへの翻訳システムの中ではほとんど研究されない。
エンドツーエンド(E2E)システムは、翻訳決定を行う際に音声信号に直接アクセスする。
主な課題は、翻訳における韻律認識を評価することの難しさである。
論文 参考訳(メタデータ) (2024-10-31T15:20:50Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Named Entity Detection and Injection for Direct Speech Translation [28.645529770009247]
我々は、S2Tモデル出力を改善するために、与えられたコンテキストに現れる可能性のある名前付きエンティティの辞書を利用する方法を示す。
実験の結果,S2Tエンコーダ出力から発声中のNEを確実に検出できることがわかった。
実際、現在の検出品質は、人名エラーを31%減らして、翻訳におけるNE精度を向上させるのに十分であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:16:51Z) - Automatic Evaluation and Analysis of Idioms in Neural Machine
Translation [12.227312923011986]
人間の関与なしにリテラル翻訳誤りの頻度を測定するための新しい指標を提案する。
モノリンガル事前学習の役割を探求し、それが実質的な改善をもたらすことを発見した。
ランダムなイディオムモデルは、文脈の変化の影響を受けないため、より局所的あるいは「ミオピック」であることが判明した。
論文 参考訳(メタデータ) (2022-10-10T10:30:09Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Who Are We Talking About? Handling Person Names in Speech Translation [18.56702596427545]
我々は、ASR/STシステムの出力を分析し、人名転写/翻訳の失敗の原因を特定する。
次に、多言語モデルを作成することで問題を緩和し、それらを共同で書き起こしや翻訳を強制することでSTシステムをさらに改善する。
論文 参考訳(メタデータ) (2022-05-13T16:37:44Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - It's not a Non-Issue: Negation as a Source of Error in Machine
Translation [33.991817055535854]
本稿では,17の翻訳方向をテストベッドとして用いた機械翻訳システムにおいて,翻訳否定が問題となるかを検討する。
実際、否定の存在は下流の品質に大きく影響し、場合によっては60%以上の品質低下をもたらします。
論文 参考訳(メタデータ) (2020-10-12T03:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。