論文の概要: Named Entity Detection and Injection for Direct Speech Translation
- arxiv url: http://arxiv.org/abs/2210.11981v1
- Date: Fri, 21 Oct 2022 14:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:53:07.637142
- Title: Named Entity Detection and Injection for Direct Speech Translation
- Title(参考訳): 直接音声翻訳のための名前付きエンティティ検出とインジェクション
- Authors: Marco Gaido, Yun Tang, Ilia Kulikov, Rongqing Huang, Hongyu Gong,
Hirofumi Inaguma
- Abstract要約: 我々は、S2Tモデル出力を改善するために、与えられたコンテキストに現れる可能性のある名前付きエンティティの辞書を利用する方法を示す。
実験の結果,S2Tエンコーダ出力から発声中のNEを確実に検出できることがわかった。
実際、現在の検出品質は、人名エラーを31%減らして、翻訳におけるNE精度を向上させるのに十分であることを示す。
- 参考スコア(独自算出の注目度): 28.645529770009247
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In a sentence, certain words are critical for its semantic. Among them, named
entities (NEs) are notoriously challenging for neural models. Despite their
importance, their accurate handling has been neglected in speech-to-text (S2T)
translation research, and recent work has shown that S2T models perform poorly
for locations and notably person names, whose spelling is challenging unless
known in advance. In this work, we explore how to leverage dictionaries of NEs
known to likely appear in a given context to improve S2T model outputs. Our
experiments show that we can reliably detect NEs likely present in an utterance
starting from S2T encoder outputs. Indeed, we demonstrate that the current
detection quality is sufficient to improve NE accuracy in the translation with
a 31% reduction in person name errors.
- Abstract(参考訳): ある文では、ある単語はその意味に批判的である。
その中でも、名前付きエンティティ(NE)は神経モデルにとって非常に難しい。
その重要性にもかかわらず、S2T翻訳研究において正確な処理は無視されており、近年の研究により、S2Tモデルは、事前に知られない限り綴りが困難である場所、特に人名に対して不利であることが示された。
本研究では,S2Tモデル出力を改善するために,与えられた文脈に現れると思われるNEの辞書を活用する方法について検討する。
実験の結果,S2Tエンコーダ出力から発声中のNEを確実に検出できることがわかった。
実際、現在の検出品質は、人名エラーを31%減らして、翻訳におけるNE精度を向上させるのに十分であることを示す。
関連論文リスト
- Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control [43.860799289234755]
本稿では,特定のタスクの文脈における特徴辞書を評価するためのフレームワークを提案する。
まず,教師付き辞書は,タスクにおけるモデル計算の近似,制御,解釈性に優れることを示す。
GPT-2 Small を用いた間接オブジェクト識別(IOI)タスクに適用し,IOI や OpenWebText のデータセットで訓練したスパースオートエンコーダ (SAE) を用いた。
論文 参考訳(メタデータ) (2024-05-14T07:07:13Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Automatic Evaluation and Analysis of Idioms in Neural Machine
Translation [12.227312923011986]
人間の関与なしにリテラル翻訳誤りの頻度を測定するための新しい指標を提案する。
モノリンガル事前学習の役割を探求し、それが実質的な改善をもたらすことを発見した。
ランダムなイディオムモデルは、文脈の変化の影響を受けないため、より局所的あるいは「ミオピック」であることが判明した。
論文 参考訳(メタデータ) (2022-10-10T10:30:09Z) - Knowledge Based Template Machine Translation In Low-Resource Setting [2.7847784580193284]
異なる資源条件下での並列コーパスにおける知識グラフ(KG)からのタグとNEハイパーネムの使用効果について検討する。
タグ・アンド・コピー機構(ソース文中のNEをタグし、ターゲット文にコピー)は、高リソース設定でのみ翻訳を改善する。
論文 参考訳(メタデータ) (2022-09-08T04:15:16Z) - PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic
Search [25.801066428860242]
文脈ウィキペディアのページを伴って28Kの名詞句のデータセットであるPiCを提案する。
データセットのトレーニングによってランキングモデルの精度が向上し、質問回答モデル(QA)がほぼ人間に近い精度に大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-07-19T04:45:41Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Is "moby dick" a Whale or a Bird? Named Entities and Terminology in
Speech Translation [13.870736341442841]
NEと用語の翻訳における最先端STシステムの挙動に関する最初の体系的解析を行った。
また、NEと用語で注釈付けされた欧州議会の演説から構築された新しいベンチマークであるNEuRoparl-STをリリースする。
論文 参考訳(メタデータ) (2021-09-15T17:15:31Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。