論文の概要: Learning aligned embeddings for semi-supervised word translation using
Maximum Mean Discrepancy
- arxiv url: http://arxiv.org/abs/2006.11578v1
- Date: Sat, 20 Jun 2020 13:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:01:44.595434
- Title: Learning aligned embeddings for semi-supervised word translation using
Maximum Mean Discrepancy
- Title(参考訳): 最大平均離散度を用いた半教師付き単語翻訳のための学習アライメント
- Authors: Antonio H. O. Fonseca and David van Dijk
- Abstract要約: 本稿では,単語ペアを必要としない単語埋め込みアライメントのためのエンドツーエンドアプローチを提案する。
本手法は, 文章翻訳訓練において, 局所的な最大平均離散性(MMD)制約を用いて整列した埋め込みを学習する。
提案手法は,教師なしの手法だけでなく,既知の単語翻訳を訓練する教師付き手法にも優れることを示す。
- 参考スコア(独自算出の注目度): 3.299672391663527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word translation is an integral part of language translation. In machine
translation, each language is considered a domain with its own word embedding.
The alignment between word embeddings allows linking semantically equivalent
words in multilingual contexts. Moreover, it offers a way to infer
cross-lingual meaning for words without a direct translation. Current methods
for word embedding alignment are either supervised, i.e. they require known
word pairs, or learn a cross-domain transformation on fixed embeddings in an
unsupervised way. Here we propose an end-to-end approach for word embedding
alignment that does not require known word pairs. Our method, termed Word
Alignment through MMD (WAM), learns embeddings that are aligned during sentence
translation training using a localized Maximum Mean Discrepancy (MMD)
constraint between the embeddings. We show that our method not only
out-performs unsupervised methods, but also supervised methods that train on
known word translations.
- Abstract(参考訳): 単語翻訳は言語翻訳の不可欠な部分である。
機械翻訳では、各言語は独自の単語埋め込みを持つドメインとみなされる。
単語埋め込み間のアライメントにより、意味的に等価な単語を多言語文脈でリンクすることができる。
さらに、直接翻訳することなく、単語の言語間意味を推測する方法も提供する。
単語埋め込みアライメントの現在の手法は教師あり、すなわち既知の単語ペアを必要とするか、あるいは教師なしの方法で固定埋め込みのクロスドメイン変換を学ぶ。
本稿では,単語ペアを必要としない単語埋め込みアライメントのためのエンドツーエンドアプローチを提案する。
MMD (WAM) によるワードアライメント (Word Alignment) と呼ばれる本手法では, 埋め込み間の最大平均離散性 (MMD) 制約を用いて, 文章翻訳訓練中に整列した埋め込みを学習する。
提案手法は,教師なしの手法だけでなく,既知の単語翻訳を訓練する教師付き手法にも優れることを示す。
関連論文リスト
- Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Third-Party Aligner for Neural Word Alignments [18.745852103348845]
本稿では,ニューラルネットワークによる単語アライメントトレーニングの監督のために,サードパーティ製単語アライメント器によって生成された単語アライメントを提案する。
実験により、我々のアプローチは第三者の監督に対して驚くほど自己補正が可能であることが示された。
我々は最先端の単語アライメント性能を達成し、最高のサードパーティアライメントよりも平均2ポイント以上低いアライメント誤り率を持つ。
論文 参考訳(メタデータ) (2022-11-08T12:30:08Z) - Unsupervised Alignment of Distributional Word Embeddings [0.0]
クロスドメインアライメントは、機械翻訳から伝達学習までのタスクにおいて重要な役割を果たす。
提案手法は,複数の言語対をまたいだバイリンガル語彙誘導タスクにおいて,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-03-09T16:39:06Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Interactive Re-Fitting as a Technique for Improving Word Embeddings [0.0]
我々は,単語の集合を互いに近づけることで,単語の埋め込み空間の一部を調整できるようにする。
提案手法では,単語埋め込みにおける潜在的なバイアスをユーザが操作する際,選択的な後処理をトリガーし,評価することができる。
論文 参考訳(メタデータ) (2020-09-30T21:54:22Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。