論文の概要: The Devil is in the Details: On the Pitfalls of Vocabulary Selection in
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2205.06618v1
- Date: Fri, 13 May 2022 13:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 12:19:33.229266
- Title: The Devil is in the Details: On the Pitfalls of Vocabulary Selection in
Neural Machine Translation
- Title(参考訳): The Devil is in the details: On the Pitfalls of Vocabulary Selection in Neural Machine Translation
- Authors: Tobias Domhan, Eva Hasler, Ke Tran, Sony Trenous, Bill Byrne, Felix
Hieber
- Abstract要約: 本稿では、文脈化エンコーダ表現から許容される単語の集合を予測するニューラルネットワークモデルに統合された語彙選択モデルを提案する。
これは、WMTニューステスト2020と慣用表現に関する人間の評価によって測定された、制約のないシステムの翻訳品質を復元する。
- 参考スコア(独自算出の注目度): 12.207265136294678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vocabulary selection, or lexical shortlisting, is a well-known technique to
improve latency of Neural Machine Translation models by constraining the set of
allowed output words during inference. The chosen set is typically determined
by separately trained alignment model parameters, independent of the
source-sentence context at inference time. While vocabulary selection appears
competitive with respect to automatic quality metrics in prior work, we show
that it can fail to select the right set of output words, particularly for
semantically non-compositional linguistic phenomena such as idiomatic
expressions, leading to reduced translation quality as perceived by humans.
Trading off latency for quality by increasing the size of the allowed set is
often not an option in real-world scenarios. We propose a model of vocabulary
selection, integrated into the neural translation model, that predicts the set
of allowed output words from contextualized encoder representations. This
restores translation quality of an unconstrained system, as measured by human
evaluations on WMT newstest2020 and idiomatic expressions, at an inference
latency competitive with alignment-based selection using aggressive thresholds,
thereby removing the dependency on separately trained alignment models.
- Abstract(参考訳): 語彙選択(英: vocabulary selection、英: lexical shortlisting)は、推論中に許容される単語の集合を制限することによって、ニューラルネットワークの翻訳モデルのレイテンシを改善するためのよく知られた手法である。
選択された集合は、通常、推論時のソース・センテンスコンテキストとは無関係に、個別に訓練されたアライメントモデルパラメータによって決定される。
語彙選択は,先行作業における自動品質指標と競合するように見えるが,特に慣用的表現のような意味論的に非複合的な言語現象に対して,適切な出力語群を選択することができず,人間の認識する翻訳品質が低下することを示す。
許可されたセットのサイズを増やすことで品質の遅延を排除することは、現実のシナリオではオプションではないことが多い。
本稿では,文脈化されたエンコーダ表現から許容される単語の集合を予測するニューラル翻訳モデルに統合した語彙選択モデルを提案する。
これにより、WMTニューステスト2020と慣用表現による人による評価により、アライメントに基づくアライメント選択と積極的なしきい値を用いた競合する推論遅延において、制約のないシステムの翻訳品質を復元し、個別に訓練されたアライメントモデルへの依存を除去する。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Direct Speech-to-speech Translation without Textual Annotation using
Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。
Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-12T10:03:10Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Robust Neural Machine Translation: Modeling Orthographic and
Interpunctual Variation [3.3194866396158]
そこで本研究では,10種類の逆例を生成するための簡易な生成ノイズモデルを提案する。
ノイズの多いデータでテストすると、敵の例を使って訓練されたシステムは、クリーンなデータを翻訳するのと同様に、ほぼ同等に機能することを示す。
論文 参考訳(メタデータ) (2020-09-11T14:12:54Z) - Neural Simultaneous Speech Translation Using Alignment-Based Chunking [4.224809458327515]
同時機械翻訳では、ソース単語の連続ストリームが与えられた部分翻訳をいつ生成するかを決定することが目的である。
入力や出力語の生成を継続する際の動的決定を動的に行うニューラルネットワーク翻訳(NMT)モデルを提案する。
We results on the IWSLT 2020 English-to-German task outperform a wait-k baseline by 2.6 to 3.7% BLEU absolute。
論文 参考訳(メタデータ) (2020-05-29T10:20:48Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。