論文の概要: IsoVec: Controlling the Relative Isomorphism of Word Embedding Spaces
- arxiv url: http://arxiv.org/abs/2210.05098v3
- Date: Tue, 4 Jul 2023 18:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 00:05:37.489949
- Title: IsoVec: Controlling the Relative Isomorphism of Word Embedding Spaces
- Title(参考訳): IsoVec:単語埋め込み空間の相対同型制御
- Authors: Kelly Marchisio, Neha Verma, Kevin Duh, Philipp Koehn
- Abstract要約: 単語埋め込み学習の結果、基礎となる空間が非同型となるという、欠陥のある言語間マッピングの根本原因に対処する。
我々は、Skip-gram損失関数に直接同型のグローバル測度を組み込み、訓練された単語埋め込み空間の相対同型を増大させることに成功した。
- 参考スコア(独自算出の注目度): 24.256732557154486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to extract high-quality translation dictionaries from monolingual
word embedding spaces depends critically on the geometric similarity of the
spaces -- their degree of "isomorphism." We address the root-cause of faulty
cross-lingual mapping: that word embedding training resulted in the underlying
spaces being non-isomorphic. We incorporate global measures of isomorphism
directly into the Skip-gram loss function, successfully increasing the relative
isomorphism of trained word embedding spaces and improving their ability to be
mapped to a shared cross-lingual space. The result is improved bilingual
lexicon induction in general data conditions, under domain mismatch, and with
training algorithm dissimilarities. We release IsoVec at
https://github.com/kellymarchisio/isovec.
- Abstract(参考訳): 単言語単語埋め込み空間から高品質な翻訳辞書を抽出する能力は、空間の幾何学的類似性、すなわちその「同型」の度合いに依存する。
単語埋め込み学習の結果、基礎となる空間が非同型となるという、欠陥のある言語間マッピングの根本原因に対処する。
我々は,スキップ-グラム損失関数に直接同型の大域的測度を組み込んで,訓練された単語埋め込み空間の相対的同型を増大させ,共通言語間空間にマッピングする能力を向上させる。
その結果、一般的なデータ条件、ドメインミスマッチ、トレーニングアルゴリズムの相違によるバイリンガル語彙誘導が改善された。
私たちはIsoVecをhttps://github.com/kellymarchisio/isovec.comでリリースします。
関連論文リスト
- GARI: Graph Attention for Relative Isomorphism of Arabic Word Embeddings [10.054788741823627]
語彙誘導(BLI)はNLPの中核的な問題であり、個々の埋め込み空間の相対同型に依存する。
異なる埋め込み空間の相対同型を制御しようとする既存の試みは、意味論的に関連する単語の影響を組み込むことができない。
本稿では,分散学習目標とグラフアテンションネットワークによって導かれる多重同型損失を組み合わせたGARIを提案する。
論文 参考訳(メタデータ) (2023-10-19T18:08:22Z) - GRI: Graph-based Relative Isomorphism of Word Embedding Spaces [10.984134369344117]
単言語埋め込み空間を用いた二言語辞書の自動構築は機械翻訳における中核的な課題である。
異なる空間の相対同型性を制御することを目的とした既存の試みは、訓練対象に意味的関連語の影響を組み込むことができない。
本稿では,分布学習目的と注意グラフの畳み込みを組み合わせたGRIを提案し,意味的類似語の影響を全会一致で検討する。
論文 参考訳(メタデータ) (2023-10-18T22:10:47Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and
Isometric Conditions [7.615096161060399]
並列コーパスを利用した文脈認識・辞書フリーマッピング手法について検討する。
本研究は, 正規化文脈埋め込み空間における等方性, 等方性, 等方性の間の密接な関係を解明するものである。
論文 参考訳(メタデータ) (2021-07-19T22:57:36Z) - Zero-Shot Cross-Lingual Dependency Parsing through Contextual Embedding
Transformation [7.615096161060399]
クロスリンガル埋め込み空間マッピングは通常、静的ワードレベル埋め込みで研究される。
感覚レベルと辞書のない文脈埋め込みアライメントアプローチを検討する。
組み込み変換によって構築された概念共有空間によるゼロショット依存性解析の実験は、多言語埋め込みを使用して最先端の方法を大幅に上回る。
論文 参考訳(メタデータ) (2021-03-03T06:50:43Z) - Simultaneous Semantic Alignment Network for Heterogeneous Domain
Adaptation [67.37606333193357]
本稿では,カテゴリ間の相関を同時に利用し,各カテゴリ毎のセントロイドを整列させるために,aSimultaneous Semantic Alignment Network (SSAN)を提案する。
対象の擬似ラベルを利用することで、各カテゴリの特徴表現を整列させるために、ロバストな三重項中心のアライメント機構を明示的に適用する。
テキスト・ツー・イメージ、画像・画像・テキスト・ツー・テキストにわたる様々なHDAタスクの実験は、最先端のHDA手法に対するSSANの優位性を検証することに成功した。
論文 参考訳(メタデータ) (2020-08-04T16:20:37Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z) - Are All Good Word Vector Spaces Isomorphic? [79.04509759167952]
言語ペア間の性能のばらつきは, 類型的差異によるだけでなく, 利用可能なモノリンガル資源の大きさによるところが大きい。
論文 参考訳(メタデータ) (2020-04-08T15:49:19Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。