論文の概要: Injecting Wiktionary to improve token-level contextual representations
using contrastive learning
- arxiv url: http://arxiv.org/abs/2402.07817v1
- Date: Mon, 12 Feb 2024 17:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:16:37.102213
- Title: Injecting Wiktionary to improve token-level contextual representations
using contrastive learning
- Title(参考訳): コントラスト学習を用いたトークンレベルの文脈表現改善のためのWiktionaryの注入
- Authors: Anna Mosolova, Marie Candito, Carlos Ramisch
- Abstract要約: 我々は、英語ウィキオンリーを用いて、レキシコンを代替の監督源として注入する方法を検討する。
また、次元の減少が結果の文脈的単語の埋め込みにどのように影響するかを検証する。
- 参考スコア(独自算出の注目度): 2.761009930426063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While static word embeddings are blind to context, for lexical semantics
tasks context is rather too present in contextual word embeddings, vectors of
same-meaning occurrences being too different (Ethayarajh, 2019). Fine-tuning
pre-trained language models (PLMs) using contrastive learning was proposed,
leveraging automatically self-augmented examples (Liu et al., 2021b). In this
paper, we investigate how to inject a lexicon as an alternative source of
supervision, using the English Wiktionary. We also test how dimensionality
reduction impacts the resulting contextual word embeddings. We evaluate our
approach on the Word-In-Context (WiC) task, in the unsupervised setting (not
using the training set). We achieve new SoTA result on the original WiC test
set. We also propose two new WiC test sets for which we show that our
fine-tuning method achieves substantial improvements. We also observe
improvements, although modest, for the semantic frame induction task. Although
we experimented on English to allow comparison with related work, our method is
adaptable to the many languages for which large Wiktionaries exist.
- Abstract(参考訳): 静的な単語の埋め込みは文脈に見えないが、語彙的意味論のタスクのコンテキストは文脈的な単語の埋め込みには存在しないが、同じ意味のベクトルはあまりに異なる(Ethayarajh, 2019)。
コントラスト学習を用いた微調整事前学習言語モデル(PLM)が提案され,自動自己拡張例(Liu et al., 2021b)を活用する。
本稿では,英語wiktionaryを用いて,代替の監督源としてレキシコンを注入する方法について検討する。
また、次元の減少が結果の文脈的単語埋め込みに与える影響についても検証する。
我々は,Word-In-Context(WiC)タスクに対するアプローチを,教師なし設定(トレーニングセットを使用しない)で評価する。
元のwicテストセットで新たなsoma結果を得る。
また,2つの新しいWiCテストセットを提案する。
セマンティクスフレームのインダクションタスクに対する改善は、控えめではあるが、観察しています。
関連研究との比較を英語で実験したが,本手法は大規模ウィクタリーが存在する多くの言語に対応可能である。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Contrastive Learning for Context-aware Neural Machine TranslationUsing
Coreference Information [14.671424999873812]
ソース文と文脈文のコア参照に基づく新しいデータ拡張とコントラスト学習方式であるCorefCLを提案する。
コンテキスト文で検出されたコア参照の言及を自動的に破損させることで、CorefCLはコア参照の不整合に敏感なモデルをトレーニングすることができる。
実験では,英語・ドイツ語・韓国語タスクの比較モデルのBLEUを一貫して改善した。
論文 参考訳(メタデータ) (2021-09-13T05:18:47Z) - Aligning Cross-lingual Sentence Representations with Dual Momentum
Contrast [12.691501386854094]
本稿では,異なる言語からの文表現を,単純なドット積で意味的類似性を計算可能な統合埋め込み空間に整合させることを提案する。
実験結果が示すように,本モデルが生成した文表現は,複数のタスクにおいて新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-09-01T08:48:34Z) - Denoising Word Embeddings by Averaging in a Shared Space [34.175826109538676]
単語埋め込みの品質を円滑にし,改善するための新しい手法を提案する。
一般化プロクリスト解析(GPA)手法の効率的な実装を用いて,すべてのモデルを共有ベクトル空間に投影する。
新しい表現はより安定し信頼性が高いため、稀な単語評価において顕著な改善がある。
論文 参考訳(メタデータ) (2021-06-05T19:49:02Z) - Word2rate: training and evaluating multiple word embeddings as
statistical transitions [4.350783459690612]
単語順に敏感なタスクのパフォーマンスを向上させる,新しい左サイドコンテキスト分割目標を提案する。
私たちの word2rate モデルは、さまざまな言語タスクで競争しながら、レート行列を用いた統計基礎に基礎を置いている。
論文 参考訳(メタデータ) (2021-04-16T15:31:29Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。