論文の概要: Cross-Lingual Word Embedding Refinement by $\ell_{1}$ Norm Optimisation
- arxiv url: http://arxiv.org/abs/2104.04916v1
- Date: Sun, 11 Apr 2021 04:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:44:00.161343
- Title: Cross-Lingual Word Embedding Refinement by $\ell_{1}$ Norm Optimisation
- Title(参考訳): $\ell_{1}$ Norm 最適化による言語間単語埋め込みリファインメント
- Authors: Xutan Peng, Chenghua Lin, Mark Stevenson
- Abstract要約: 言語間の単語埋め込みは、2つ以上の言語からの単語を共有高次元空間にエンコードする。
本稿ではCLWEを改善するための簡単な後処理ステップを提案する。
- 参考スコア(独自算出の注目度): 10.826468075743701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-Lingual Word Embeddings (CLWEs) encode words from two or more languages
in a shared high-dimensional space in which vectors representing words with
similar meaning (regardless of language) are closely located. Existing methods
for building high-quality CLWEs learn mappings that minimise the $\ell_{2}$
norm loss function. However, this optimisation objective has been demonstrated
to be sensitive to outliers. Based on the more robust Manhattan norm (aka.
$\ell_{1}$ norm) goodness-of-fit criterion, this paper proposes a simple
post-processing step to improve CLWEs. An advantage of this approach is that it
is fully agnostic to the training process of the original CLWEs and can
therefore be applied widely. Extensive experiments are performed involving ten
diverse languages and embeddings trained on different corpora. Evaluation
results based on bilingual lexicon induction and cross-lingual transfer for
natural language inference tasks show that the $\ell_{1}$ refinement
substantially outperforms four state-of-the-art baselines in both supervised
and unsupervised settings. It is therefore recommended that this strategy be
adopted as a standard for CLWE methods.
- Abstract(参考訳): CLWE(Cross-Lingual Word Embeddings)は、類似した意味を持つ単語を表すベクトルが密接な位置にある共有高次元空間において、2つ以上の言語からの単語を符号化する。
高品質なCLWEを構築するための既存の方法は、$\ell_{2}$ノルム損失関数を最小化するマッピングを学ぶ。
しかし、この最適化の目的は外れ値に敏感であることが示されている。
より堅牢なマンハッタン標準(別名。
本稿では,CLWEを改善するための簡単な後処理ステップを提案する。
このアプローチの利点は、オリジナルのclwesのトレーニングプロセスに完全に依存せず、広く適用可能であることである。
大規模な実験は、異なるコーパスで訓練された10の多様な言語と埋め込みを含む。
自然言語推論タスクにおけるバイリンガル語彙誘導とクロスリンガル移動に基づく評価結果から,$\ell_{1}$の洗練は,教師なしと教師なしの両方の設定において,最先端の4つのベースラインを大幅に上回っていることが示された。
したがって、この戦略をclweメソッドの標準として採用することが推奨される。
関連論文リスト
- Learning-to-Rank Meets Language: Boosting Language-Driven Ordering
Alignment for Ordinal Classification [60.28913031192201]
順序分類のための新しい言語駆動順序付け手法を提案する。
事前学習された視覚言語モデルの最近の発展は、人間の言語におけるリッチな順序性を活用するきっかけとなった。
顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,美的評価を含む3つの日常的分類課題の実験は,その有望な性能を示す。
論文 参考訳(メタデータ) (2023-06-24T04:11:31Z) - Improving Bilingual Lexicon Induction with Cross-Encoder Reranking [71.56677929420138]
BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる新しい半教師付きポストホックリグレード法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
BLICErは、多様な言語にまたがる2つの標準BLIベンチマークで、新しい結果を確立している。
論文 参考訳(メタデータ) (2022-10-30T21:26:07Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Locality Preserving Loss: Neighbors that Live together, Align together [17.38333662301994]
局所性保存損失(LPL)は、非相関表現を分離しながら、ベクトル空間の埋め込み間のアライメントを改善する。
入力ベクトル空間間のLPLベースのアライメントが正規化器として機能し,ベースラインよりも精度が高く一貫した精度が得られることを示す。
論文 参考訳(メタデータ) (2020-04-07T22:26:09Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。