論文の概要: SMSMix: Sense-Maintained Sentence Mixup for Word Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2212.07072v1
- Date: Wed, 14 Dec 2022 07:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:18:48.648777
- Title: SMSMix: Sense-Maintained Sentence Mixup for Word Sense Disambiguation
- Title(参考訳): SMSMix:単語センスの曖昧化のためのセンテンスミックス
- Authors: Hee Suk Yoon, Eunseop Yoon, John Harvill, Sunjae Yoon, Mark
Hasegawa-Johnson, Chang D. Yoo
- Abstract要約: Sense-Maintained Sentence Mixup (SMSMix)を提案する。
SMSMixは、特定の単語の感覚を維持するために、唾液度スコアによって決定された関連範囲を保存しながら、マスク予測を用いて2つの文を円滑にブレンドする。
- 参考スコア(独自算出の注目度): 42.04634449354288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word Sense Disambiguation (WSD) is an NLP task aimed at determining the
correct sense of a word in a sentence from discrete sense choices. Although
current systems have attained unprecedented performances for such tasks, the
nonuniform distribution of word senses during training generally results in
systems performing poorly on rare senses. To this end, we consider data
augmentation to increase the frequency of these least frequent senses (LFS) to
reduce the distributional bias of senses during training. We propose
Sense-Maintained Sentence Mixup (SMSMix), a novel word-level mixup method that
maintains the sense of a target word. SMSMix smoothly blends two sentences
using mask prediction while preserving the relevant span determined by saliency
scores to maintain a specific word's sense. To the best of our knowledge, this
is the first attempt to apply mixup in NLP while preserving the meaning of a
specific word. With extensive experiments, we validate that our augmentation
method can effectively give more information about rare senses during training
with maintained target sense label.
- Abstract(参考訳): word sense disambiguation (wsd) は、文中の単語の正しい意味を離散的な感覚の選択から判断することを目的としたnlpタスクである。
現在のシステムでは、このようなタスクでは前例のないパフォーマンスが達成されているが、トレーニング中の単語感覚の非一様分布は、通常、まれな意味でのシステムのパフォーマンスが低くなる。
この目的のために,学習中の感覚の分布バイアスを減少させるために,これらの最小頻度感覚(lfs)の頻度を増加させるデータ拡張を検討する。
本稿では,対象単語の感覚を維持する新しい単語レベル混合法である感覚維持文混合法(smsmix)を提案する。
smsmixは、2つの文をマスク予測を使ってスムーズにブレンドし、特定の単語の感覚を維持するために、サリエンシースコアによって決定される関連スパンを保持する。
我々の知る限りでは、これは特定の単語の意味を保ちながらNLPにミックスアップを適用する最初の試みである。
広範にわたる実験により,本手法が目標感覚ラベルのトレーニング中に,レアセンスに関する情報を効果的に提供できることが検証された。
関連論文リスト
- Can Word Sense Distribution Detect Semantic Changes of Words? [35.17635565325166]
単語感覚分布は、英語、ドイツ語、スウェーデン語、ラテン語の単語の意味変化を正確に予測するために使用できることを示す。
SemEval 2020 Task 1のデータセットを用いた実験結果から,単語の意味的変化を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2023-10-16T13:41:27Z) - Word sense extension [8.939269057094661]
本稿では,新しい文脈に向けて,単語が新たな感覚を創出することを可能にする,単語知覚拡張(WSE)のパラダイムを提案する。
本研究では,多文語型を異なる感覚を示す2つの擬似トークンに分割することで,単語拡張をシミュレートするフレームワークを開発する。
本フレームワークは,様々な種類の単語知覚拡張をサポートするために,言語モデル埋め込み空間を変換する学習手法と,連鎖の認知モデルを組み合わせる。
論文 参考訳(メタデータ) (2023-06-09T00:54:21Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - Large Scale Substitution-based Word Sense Induction [48.49573297876054]
本稿では,事前学習されたマスキング言語モデル(MLM)に基づく単語センス誘導手法を提案する。
その結果、コーパス由来の感覚インベントリに基づいて感覚タグ付けされ、各感覚が指示語に関連付けられているコーパスとなる。
本手法を用いた英語ウィキペディアの評価では,Babelfy などの WSD 手法と比較しても,誘導された感覚とインスタンスごとの感覚代入の両方が高品質であることがわかった。
論文 参考訳(メタデータ) (2021-10-14T19:40:37Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Non-Parametric Few-Shot Learning for Word Sense Disambiguation [11.175893018731712]
MetricWSDは、このデータアンバランス問題を緩和するための非パラメトリックな数ショット学習アプローチです。
MetricWSDは、ある単語の感覚間の距離を計算することを学ぶことで、高周波の単語から頻繁な単語に知識を伝達する。
論文 参考訳(メタデータ) (2021-04-26T16:08:46Z) - Moving Down the Long Tail of Word Sense Disambiguation with
Gloss-Informed Biencoders [79.38278330678965]
Word Sense Disambiguation (WSD)の主な障害は、単語感覚が均一に分散されないことである。
本稿では,(1)対象語とその周囲の文脈を独立に埋め込んだバイエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-05-06T04:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。