論文の概要: Filtered Inner Product Projection for Crosslingual Embedding Alignment
- arxiv url: http://arxiv.org/abs/2006.03652v2
- Date: Tue, 23 Mar 2021 22:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:40:45.145366
- Title: Filtered Inner Product Projection for Crosslingual Embedding Alignment
- Title(参考訳): クロスリンガル埋め込みアライメントのためのフィルタ内積投影
- Authors: Vin Sachidananda, Ziyi Yang, Chenguang Zhu
- Abstract要約: フィルタ内積投影(FIPP)は、埋め込みを共通表現空間にマッピングする手法である。
FIPPは、ソースとターゲットの埋め込みが異なる次元である場合でも適用可能である。
提案手法は,MUSEデータセット上の既存の手法よりも,様々な言語ペアに対して優れていることを示す。
- 参考スコア(独自算出の注目度): 28.72288652451881
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Due to widespread interest in machine translation and transfer learning,
there are numerous algorithms for mapping multiple embeddings to a shared
representation space. Recently, these algorithms have been studied in the
setting of bilingual dictionary induction where one seeks to align the
embeddings of a source and a target language such that translated word pairs
lie close to one another in a common representation space. In this paper, we
propose a method, Filtered Inner Product Projection (FIPP), for mapping
embeddings to a common representation space and evaluate FIPP in the context of
bilingual dictionary induction. As semantic shifts are pervasive across
languages and domains, FIPP first identifies the common geometric structure in
both embeddings and then, only on the common structure, aligns the Gram
matrices of these embeddings. Unlike previous approaches, FIPP is applicable
even when the source and target embeddings are of differing dimensionalities.
We show that our approach outperforms existing methods on the MUSE dataset for
various language pairs. Furthermore, FIPP provides computational benefits both
in ease of implementation and scalability.
- Abstract(参考訳): 機械翻訳と転送学習に広く関心があるため、複数の埋め込みを共有表現空間にマッピングする多くのアルゴリズムがある。
近年、これらのアルゴリズムは、ソースの埋め込みと翻訳語対が共通の表現空間内に存在するように対象言語を整合させようとするバイリンガル辞書誘導(英語版)の設定において研究されている。
本稿では,埋め込みを共通表現空間にマッピングし,バイリンガル辞書誘導の文脈でfippを評価するためのフィルタ付き内積投影法(fipp)を提案する。
意味的シフトは言語や領域にまたがって広まるので、fippはまず埋め込みの両方において共通の幾何学的構造を特定し、それからそれらの埋め込みのグラム行列を整列する。
従来のアプローチとは異なり、fippはソースとターゲットの埋め込みが異なる次元である場合でも適用できる。
提案手法は,museデータセットの既存手法を各種言語対で上回っていることを示す。
さらに、FIPPは実装の容易さとスケーラビリティの両方で計算上の利点を提供します。
関連論文リスト
- Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and
Isometric Conditions [7.615096161060399]
並列コーパスを利用した文脈認識・辞書フリーマッピング手法について検討する。
本研究は, 正規化文脈埋め込み空間における等方性, 等方性, 等方性の間の密接な関係を解明するものである。
論文 参考訳(メタデータ) (2021-07-19T22:57:36Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Multi-Adversarial Learning for Cross-Lingual Word Embeddings [19.407717032782863]
言語間単語の埋め込みを誘導する新しい手法を提案する。
複数のマッピングを通じてシード言語間の辞書を誘導し、それぞれが1つの部分空間のマッピングに適合するように誘導される。
教師なしバイリンガルレキシコン誘導実験により, 従来のシングルマッピング法よりも性能が向上することが示された。
論文 参考訳(メタデータ) (2020-10-16T14:54:28Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z) - Data Augmentation with Unsupervised Machine Translation Improves the
Structural Similarity of Cross-lingual Word Embeddings [29.467158098595924]
言語間単語埋め込み法は、2つの単言語埋め込み空間をマッピングする線形変換行列を学習する。
我々は、教師なし機械翻訳モデルによって生成された擬似並列コーパスを用いることで、2つの埋め込み空間の構造的類似性が促進されると主張している。
論文 参考訳(メタデータ) (2020-05-30T13:28:03Z) - Geometry-aware Domain Adaptation for Unsupervised Alignment of Word
Embeddings [15.963615360741356]
そこで本研究では,対象言語間の単語埋め込みの教師なしアライメントを学習するための,新しい多様体に基づく幾何学的手法を提案する。
本手法は、多様体の二重行列上の領域適応問題としてアライメント学習問題を定式化する。
提案手法は,複数の言語対にまたがる勾配誘導課題に基づく,最先端の最適輸送手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-06T04:41:06Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。