論文の概要: Cross-lingual Word Embeddings in Hyperbolic Space
- arxiv url: http://arxiv.org/abs/2205.01907v1
- Date: Wed, 4 May 2022 06:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 23:26:21.733666
- Title: Cross-lingual Word Embeddings in Hyperbolic Space
- Title(参考訳): 双曲空間における言語間単語埋め込み
- Authors: Chandni Saxena, Mudit Chaudhary, Helen Meng
- Abstract要約: 言語間単語の埋め込みは、複数の言語にわたる自然言語処理アプリケーションに適用することができる。
本稿では,双曲空間のポアンカー球モデルに適応する,単純かつ効果的な言語間言語Word2Vecモデルを提案する。
- 参考スコア(独自算出の注目度): 31.888489552069146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual word embeddings can be applied to several natural language
processing applications across multiple languages. Unlike prior works that use
word embeddings based on the Euclidean space, this short paper presents a
simple and effective cross-lingual Word2Vec model that adapts to the Poincar\'e
ball model of hyperbolic space to learn unsupervised cross-lingual word
representations from a German-English parallel corpus. It has been shown that
hyperbolic embeddings can capture and preserve hierarchical relationships. We
evaluate the model on both hypernymy and analogy tasks. The proposed model
achieves comparable performance with the vanilla Word2Vec model on the
cross-lingual analogy task, the hypernymy task shows that the cross-lingual
Poincar\'e Word2Vec model can capture latent hierarchical structure from free
text across languages, which are absent from the Euclidean-based Word2Vec
representations. Our results show that by preserving the latent hierarchical
information, hyperbolic spaces can offer better representations for
cross-lingual embeddings.
- Abstract(参考訳): 複数の言語にまたがる自然言語処理アプリケーションに言語間埋め込みを適用することができる。
ユークリッド空間に基づく単語埋め込みを用いた先行研究とは異なり、この短い論文は、双曲空間のポアンカル・アン・ボールモデルに適応して、ドイツ語と英語の並列コーパスから教師なしの言語間表現を学習する、単純で効果的な言語横断型word2vecモデルを示す。
双曲的埋め込みは階層的関係をキャプチャし保存できることが示されている。
ハイパーネミーとアナログの両方のタスクでモデルを評価する。
提案モデルは,言語間類似タスクにおけるバニラWord2Vecモデルと同等の性能を達成し,ハイパーナミータスクは,言語間の自由テキストから潜在階層構造をキャプチャできることを示す。
その結果,潜在階層情報の保存により,双曲空間は言語間埋め込みの表現性が向上することが示された。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Exploring Alignment in Shared Cross-lingual Spaces [15.98134426166435]
多言語モデル内の潜在概念を明らかにするためにクラスタリングを採用しています。
本分析は,これらの概念のテキストアライメントとテキストオーバーラップを様々な言語で定量化することに焦点を当てている。
本研究は、3つの多言語モデル(textttmT5, texttmBERT, textttXLM-R)と3つの下流タスク(Machine Translation, Named Entity Recognition, Sentiment Analysis)を含む。
論文 参考訳(メタデータ) (2024-05-23T13:20:24Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Improving Multilingual Models with Language-Clustered Vocabularies [8.587129426070979]
本稿では,複数の自動派生言語クラスタの別々に訓練された語彙を組み合わせた多言語語彙生成のための新しい手法を提案する。
我々の実験は、主要なマルチ言語ベンチマークタスクにおける言語間の改善を示す。
論文 参考訳(メタデータ) (2020-10-24T04:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。