論文の概要: Cross-Lingual Word Embedding Refinement by $\ell_{1}$ Norm Optimisation
- arxiv url: http://arxiv.org/abs/2104.04916v1
- Date: Sun, 11 Apr 2021 04:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:44:00.161343
- Title: Cross-Lingual Word Embedding Refinement by $\ell_{1}$ Norm Optimisation
- Title(参考訳): $\ell_{1}$ Norm 最適化による言語間単語埋め込みリファインメント
- Authors: Xutan Peng, Chenghua Lin, Mark Stevenson
- Abstract要約: 言語間の単語埋め込みは、2つ以上の言語からの単語を共有高次元空間にエンコードする。
本稿ではCLWEを改善するための簡単な後処理ステップを提案する。
- 参考スコア(独自算出の注目度): 10.826468075743701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-Lingual Word Embeddings (CLWEs) encode words from two or more languages
in a shared high-dimensional space in which vectors representing words with
similar meaning (regardless of language) are closely located. Existing methods
for building high-quality CLWEs learn mappings that minimise the $\ell_{2}$
norm loss function. However, this optimisation objective has been demonstrated
to be sensitive to outliers. Based on the more robust Manhattan norm (aka.
$\ell_{1}$ norm) goodness-of-fit criterion, this paper proposes a simple
post-processing step to improve CLWEs. An advantage of this approach is that it
is fully agnostic to the training process of the original CLWEs and can
therefore be applied widely. Extensive experiments are performed involving ten
diverse languages and embeddings trained on different corpora. Evaluation
results based on bilingual lexicon induction and cross-lingual transfer for
natural language inference tasks show that the $\ell_{1}$ refinement
substantially outperforms four state-of-the-art baselines in both supervised
and unsupervised settings. It is therefore recommended that this strategy be
adopted as a standard for CLWE methods.
- Abstract(参考訳): CLWE(Cross-Lingual Word Embeddings)は、類似した意味を持つ単語を表すベクトルが密接な位置にある共有高次元空間において、2つ以上の言語からの単語を符号化する。
高品質なCLWEを構築するための既存の方法は、$\ell_{2}$ノルム損失関数を最小化するマッピングを学ぶ。
しかし、この最適化の目的は外れ値に敏感であることが示されている。
より堅牢なマンハッタン標準(別名。
本稿では,CLWEを改善するための簡単な後処理ステップを提案する。
このアプローチの利点は、オリジナルのclwesのトレーニングプロセスに完全に依存せず、広く適用可能であることである。
大規模な実験は、異なるコーパスで訓練された10の多様な言語と埋め込みを含む。
自然言語推論タスクにおけるバイリンガル語彙誘導とクロスリンガル移動に基づく評価結果から,$\ell_{1}$の洗練は,教師なしと教師なしの両方の設定において,最先端の4つのベースラインを大幅に上回っていることが示された。
したがって、この戦略をclweメソッドの標準として採用することが推奨される。
関連論文リスト
- A Collocation-based Method for Addressing Challenges in Word-level Metric Differential Privacy [3.0177210416625124]
ワードレベルの$textitMetric$ Differential Privacyアプローチが提案されている。
構成された民営化出力のセマンティックコヒーレンスと可変長を向上する手法を考案する。
本手法を実用性とプライバシテストで評価することにより,単語レベルを超えてトークン化戦略を明確にする。
論文 参考訳(メタデータ) (2024-06-30T09:37:34Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - Learning-to-Rank Meets Language: Boosting Language-Driven Ordering
Alignment for Ordinal Classification [60.28913031192201]
順序分類のための新しい言語駆動順序付け手法を提案する。
事前学習された視覚言語モデルの最近の発展は、人間の言語におけるリッチな順序性を活用するきっかけとなった。
顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,美的評価を含む3つの日常的分類課題の実験は,その有望な性能を示す。
論文 参考訳(メタデータ) (2023-06-24T04:11:31Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Improving Bilingual Lexicon Induction with Cross-Encoder Reranking [31.142790337451366]
BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる新しい半教師付きポストホックリグレード法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
BLICErは、多様な言語にまたがる2つの標準BLIベンチマークで、新しい結果を確立している。
論文 参考訳(メタデータ) (2022-10-30T21:26:07Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。