論文の概要: Improving Rare Word Translation With Dictionaries and Attention Masking
- arxiv url: http://arxiv.org/abs/2408.09075v2
- Date: Tue, 3 Sep 2024 16:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 16:42:00.400882
- Title: Improving Rare Word Translation With Dictionaries and Attention Masking
- Title(参考訳): 辞書とアテンション・マスキングによるレアワード翻訳の改善
- Authors: Kenneth J. Sible, David Chiang,
- Abstract要約: バイリンガル辞書からソース文への追加定義を提案し,アテンションマスキングを用いてレアワードとそれらの定義をリンクする。
稀な単語の定義を含むと、最大1.0BLEUと1.6MacroF1の性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 8.908747084128397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In machine translation, rare words continue to be a problem for the dominant encoder-decoder architecture, especially in low-resource and out-of-domain translation settings. Human translators solve this problem with monolingual or bilingual dictionaries. In this paper, we propose appending definitions from a bilingual dictionary to source sentences and using attention masking to link together rare words with their definitions. We find that including definitions for rare words improves performance by up to 1.0 BLEU and 1.6 MacroF1.
- Abstract(参考訳): 機械翻訳において、レアワードはエンコーダ-デコーダアーキテクチャ、特に低リソースおよび外ドメイン翻訳設定における問題であり続けている。
人間翻訳者は、この問題をモノリンガル辞書やバイリンガル辞書で解決する。
本稿では、二言語辞書からソース文への追加定義を提案し、アテンションマスキングを用いて、希少単語とそれらの定義をリンクする。
稀な単語の定義を含むと、最大1.0BLEUと1.6MacroF1の性能が向上することがわかった。
関連論文リスト
- Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment [50.80949663719335]
文埋め込みの言語間アライメントの訓練は、個々の言語の意味空間の最適な単言語構造を歪ませる。
我々は、言語間の負の干渉を避けるために、言語固有の文エンコーダを訓練する。
次に、英語以外のすべてのモノリンガルエンコーダを英語エンコーダにアライメントし、その上にクロスリンガルアライメントアダプタをトレーニングする。
論文 参考訳(メタデータ) (2024-07-20T13:56:39Z) - Beyond Shared Vocabulary: Increasing Representational Word Similarities
across Languages for Multilingual Machine Translation [9.794506112999823]
本稿では,単語等価クラスによる単語レベルの情報伝達経路を定義し,言語間の単語埋め込みを融合するグラフネットワークに依存する。
1) 類似した意味を持つ単語の埋め込みは言語間で整合性がよいこと,2) 提案手法は高・低リソースのMNMTに対して最大2.3ポイントのBLEU改善を実現すること,3) 計算コストの制限により1.0%未満のトレーニング可能なパラメータを必要とすること,である。
論文 参考訳(メタデータ) (2023-05-23T16:11:00Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Automatically Creating a Large Number of New Bilingual Dictionaries [2.363388546004777]
本稿では,低リソース言語に対して,多数のバイリンガル辞書を自動生成する手法を提案する。
提案アルゴリズムは,利用可能なWordnetと機械翻訳器を用いて,ソースコード中の単語を多言語に翻訳する。
論文 参考訳(メタデータ) (2022-08-12T04:25:23Z) - Creating Lexical Resources for Endangered Languages [2.363388546004777]
我々のアルゴリズムは公開ワードネットと機械翻訳装置(MT)を用いてバイリンガル辞書と多言語シソーラスを構築する。
我々の研究は、絶滅危惧言語と「中間ヘルパー」言語の間のバイリンガル辞書にのみ依存しているため、既存のリソースが不足している言語に適用できる。
論文 参考訳(メタデータ) (2022-08-08T02:31:28Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment [49.3253280592705]
我々は,bitextマイニングと教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
私たちの最終モデルは、BUCC 2020共有タスクの最先端を14 $F_1$ポイント、平均12以上の言語ペアで上回ります。
論文 参考訳(メタデータ) (2021-01-01T03:12:42Z) - Data Augmentation and Terminology Integration for Domain-Specific
Sinhala-English-Tamil Statistical Machine Translation [1.1470070927586016]
Out of vocabulary (OOV) は低リソース言語における機械翻訳(MT)の文脈における問題である。
本稿では、ケースマーカーに基づいてバイリンガル語彙を拡大するデータ拡張技術に焦点を当てる。
論文 参考訳(メタデータ) (2020-11-05T13:58:32Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Look It Up: Bilingual Dictionaries Improve Neural Machine Translation [17.385945558427863]
本稿では,辞書定義をレアワードに"付加"する手法について述べる。
バイリンガル辞書による最大1.8BLEUの改善を実証した。
論文 参考訳(メタデータ) (2020-10-12T19:53:08Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。