論文の概要: Revisiting the Context Window for Cross-lingual Word Embeddings
- arxiv url: http://arxiv.org/abs/2004.10813v1
- Date: Wed, 22 Apr 2020 19:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 18:13:04.741382
- Title: Revisiting the Context Window for Cross-lingual Word Embeddings
- Title(参考訳): 言語間単語埋め込みのためのコンテキストウィンドウの再検討
- Authors: Ryokan Ri and Yoshimasa Tsuruoka
- Abstract要約: マッピングに基づく言語間単語埋め込みへの既存のアプローチは、ソースとターゲットの埋め込み空間が構造的に類似しているという仮定に基づいている。
この研究は、さまざまな言語、ドメイン、タスクにおいて、異なるコンテキストウィンドウで訓練されたバイリンガル埋め込みの徹底的な評価を提供する。
本研究のハイライトは,ソースサイズとターゲットウィンドウサイズを増大させることで,バイリンガルレキシコンの誘導性能が向上することである。
- 参考スコア(独自算出の注目度): 32.27333420000134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to mapping-based cross-lingual word embeddings are based
on the assumption that the source and target embedding spaces are structurally
similar. The structures of embedding spaces largely depend on the co-occurrence
statistics of each word, which the choice of context window determines. Despite
this obvious connection between the context window and mapping-based
cross-lingual embeddings, their relationship has been underexplored in prior
work. In this work, we provide a thorough evaluation, in various languages,
domains, and tasks, of bilingual embeddings trained with different context
windows. The highlight of our findings is that increasing the size of both the
source and target window sizes improves the performance of bilingual lexicon
induction, especially the performance on frequent nouns.
- Abstract(参考訳): マッピングに基づく言語間埋め込みに対する既存のアプローチは、ソースとターゲットの埋め込み空間が構造的に似ているという仮定に基づいている。
埋め込み空間の構造は、コンテキストウィンドウの選択が決定する各単語の共起統計に大きく依存する。
コンテキストウィンドウとマッピングベースの言語間埋め込みの間に明らかな関係があるにもかかわらず、それらの関係は以前の作業では過小評価されている。
本研究では,様々な言語,ドメイン,タスクにおいて,異なるコンテキストウィンドウで訓練されたバイリンガル埋め込みの徹底的な評価を行う。
本研究のハイライトは,ソースとターゲットのウィンドウサイズが大きくなると,バイリンガル語彙誘導の性能が向上し,特に頻度の高い名詞での性能が向上する点である。
関連論文リスト
- Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Task-Specific Dependency-based Word Embedding Methods [32.75244210656976]
テキスト分類のための2つのタスク依存型単語埋め込み手法を提案する。
1つ目は、依存性ベースの単語埋め込み(DWE)と呼ばれ、単語コンテキスト行列を構築するコンテキストとして、依存関係解析ツリー内の対象単語のキーワードと隣接する単語を選択する。
CEDWE(class-enhanced dependency-based word embedded)と呼ばれる2つ目の手法は、単語コンテキストと単語クラス共起統計から学習する。
論文 参考訳(メタデータ) (2021-10-26T03:09:41Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - What makes multilingual BERT multilingual? [60.9051207862378]
本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。
我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T05:41:56Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。