論文の概要: Understanding Linearity of Cross-Lingual Word Embedding Mappings
- arxiv url: http://arxiv.org/abs/2004.01079v3
- Date: Sat, 11 Jun 2022 12:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 10:11:59.760994
- Title: Understanding Linearity of Cross-Lingual Word Embedding Mappings
- Title(参考訳): 言語間単語埋め込みマッピングの線形性理解
- Authors: Xutan Peng, Mark Stevenson, Chenghua Lin, Chen Li
- Abstract要約: 言語間言語埋め込みは、低リソース言語に対する自然言語処理の課題に取り組む上で、基本的な役割を果たす。
その支配的なアプローチは、埋め込み間の関係を線形写像で表すことができると仮定したが、この仮定が成立する条件についての調査は行われていない。
本稿では,一言語単語の埋め込みに符号化されたアナログの保存を,それらの埋め込みを線形にマッピングする上で必要かつ十分な条件として同定する理論解析を行う。
- 参考スコア(独自算出の注目度): 24.89677088774191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The technique of Cross-Lingual Word Embedding (CLWE) plays a fundamental role
in tackling Natural Language Processing challenges for low-resource languages.
Its dominant approaches assumed that the relationship between embeddings could
be represented by a linear mapping, but there has been no exploration of the
conditions under which this assumption holds. Such a research gap becomes very
critical recently, as it has been evidenced that relaxing mappings to be
non-linear can lead to better performance in some cases. We, for the first
time, present a theoretical analysis that identifies the preservation of
analogies encoded in monolingual word embeddings as a necessary and sufficient
condition for the ground-truth CLWE mapping between those embeddings to be
linear. On a novel cross-lingual analogy dataset that covers five
representative analogy categories for twelve distinct languages, we carry out
experiments which provide direct empirical support for our theoretical claim.
These results offer additional insight into the observations of other
researchers and contribute inspiration for the development of more effective
cross-lingual representation learning strategies.
- Abstract(参考訳): 言語間言語埋め込み(CLWE)の技術は、低リソース言語に対する自然言語処理の課題に取り組む上で、基本的な役割を果たす。
その支配的なアプローチは、埋め込み間の関係を線形写像で表すことができると仮定したが、この仮定が持つ条件についての研究は行われていない。
このような研究のギャップが最近非常に重要になってきており、マッピングを非線形に緩和することは、場合によってはより良いパフォーマンスをもたらすことが証明されている。
本稿では, 単言語単語の埋め込みに符号化されたアナログの保存を, 線形となるような接地トラスCLWEマッピングの必要十分条件として, 初めて理論的解析を行った。
12の異なる言語に対する5つの代表的アナロジーカテゴリを網羅する新しい言語間類似データセットについて,我々の理論的主張に対する直接的な実証的支援を提供する実験を行った。
これらの結果は、他の研究者の観察に関するさらなる洞察を与え、より効果的な言語間表現学習戦略の開発にインスピレーションを与える。
関連論文リスト
- Locally Measuring Cross-lingual Lexical Alignment: A Domain and Word Level Perspective [15.221506468189345]
親族領域における語彙的ギャップを用いた合成検証と新しい自然主義的検証の両方を解析する手法を提案する。
我々の分析は16の多様な言語にまたがっており、新しい言語モデルを使用することで改善の余地があることを実証している。
論文 参考訳(メタデータ) (2024-10-07T16:37:32Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Isomorphic Cross-lingual Embeddings for Low-Resource Languages [1.5076964620370268]
CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2022-03-28T10:39:07Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - LNMap: Departures from Isomorphic Assumption in Bilingual Lexicon
Induction Through Non-Linear Mapping in Latent Space [17.49073364781107]
バイリンガル語彙誘導のための言語間単語埋め込み学習のための新しい半教師付き手法を提案する。
我々のモデルは同型仮定とは独立であり、2つの独立に訓練されたオートエンコーダの潜在空間における非線形写像を用いる。
論文 参考訳(メタデータ) (2020-04-28T23:28:26Z) - ABSent: Cross-Lingual Sentence Representation Mapping with Bidirectional
GANs [48.287610663358066]
本稿では,限られた並列データ量から言語間文表現のマッピングを学習するAdversarial Bi-directional Sentence Embedding Mapping (ABSent) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-29T22:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。