論文の概要: Are All Good Word Vector Spaces Isomorphic?
- arxiv url: http://arxiv.org/abs/2004.04070v2
- Date: Tue, 20 Oct 2020 17:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:55:00.895356
- Title: Are All Good Word Vector Spaces Isomorphic?
- Title(参考訳): すべての単語ベクトル空間は同型か?
- Authors: Ivan Vuli\'c, Sebastian Ruder, and Anders S{\o}gaard
- Abstract要約: 言語ペア間の性能のばらつきは, 類型的差異によるだけでなく, 利用可能なモノリンガル資源の大きさによるところが大きい。
- 参考スコア(独自算出の注目度): 79.04509759167952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing algorithms for aligning cross-lingual word vector spaces assume that
vector spaces are approximately isomorphic. As a result, they perform poorly or
fail completely on non-isomorphic spaces. Such non-isomorphism has been
hypothesised to result from typological differences between languages. In this
work, we ask whether non-isomorphism is also crucially a sign of degenerate
word vector spaces. We present a series of experiments across diverse languages
which show that variance in performance across language pairs is not only due
to typological differences, but can mostly be attributed to the size of the
monolingual resources available, and to the properties and duration of
monolingual training (e.g. "under-training").
- Abstract(参考訳): 既存の言語間ワードベクトル空間の整列アルゴリズムは、ベクトル空間が概同型であることを仮定する。
その結果、それらは非同型空間上で不振または完全に失敗する。
このような非同型は言語間の類型的差異から生じると仮定されている。
本研究では、非同型性もまた退化ワードベクトル空間の符号であるかどうかを問う。
本稿では,言語対間のパフォーマンスのばらつきがタイプ学的な差異によるだけでなく,利用可能な単言語資源の大きさや,単言語訓練(例えば「アンダートレーニング」)の性質や持続時間にも起因していることを示す,多様な言語を対象とした一連の実験について述べる。
関連論文リスト
- GRI: Graph-based Relative Isomorphism of Word Embedding Spaces [10.984134369344117]
単言語埋め込み空間を用いた二言語辞書の自動構築は機械翻訳における中核的な課題である。
異なる空間の相対同型性を制御することを目的とした既存の試みは、訓練対象に意味的関連語の影響を組み込むことができない。
本稿では,分布学習目的と注意グラフの畳み込みを組み合わせたGRIを提案し,意味的類似語の影響を全会一致で検討する。
論文 参考訳(メタデータ) (2023-10-18T22:10:47Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - IsoVec: Controlling the Relative Isomorphism of Word Embedding Spaces [24.256732557154486]
単語埋め込み学習の結果、基礎となる空間が非同型となるという、欠陥のある言語間マッピングの根本原因に対処する。
我々は、Skip-gram損失関数に直接同型のグローバル測度を組み込み、訓練された単語埋め込み空間の相対同型を増大させることに成功した。
論文 参考訳(メタデータ) (2022-10-11T02:29:34Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon
Induction [21.782189001319935]
2つの言語の埋め込みの同型性を高めるための変換に基づく手法を提案する。
我々の手法は最先端の手法と比較して、競争力や優れた性能を達成することができる。
論文 参考訳(メタデータ) (2021-05-26T02:09:58Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - LNMap: Departures from Isomorphic Assumption in Bilingual Lexicon
Induction Through Non-Linear Mapping in Latent Space [17.49073364781107]
バイリンガル語彙誘導のための言語間単語埋め込み学習のための新しい半教師付き手法を提案する。
我々のモデルは同型仮定とは独立であり、2つの独立に訓練されたオートエンコーダの潜在空間における非線形写像を用いる。
論文 参考訳(メタデータ) (2020-04-28T23:28:26Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。