論文の概要: Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks
- arxiv url: http://arxiv.org/abs/2102.00290v1
- Date: Sat, 30 Jan 2021 18:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:23:34.215441
- Title: Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks
- Title(参考訳): Fake it Till you Make it: Self-Supervised Semantic Shifts for Monolingual Word Embedding Tasks
- Authors: Maur\'icio Gruppi, Sibel Adal{\i}, Pin-Yu Chen
- Abstract要約: 語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
- 参考スコア(独自算出の注目度): 58.87961226278285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of language is subject to variation over time as well as across
social groups and knowledge domains, leading to differences even in the
monolingual scenario. Such variation in word usage is often called lexical
semantic change (LSC). The goal of LSC is to characterize and quantify language
variations with respect to word meaning, to measure how distinct two language
sources are (that is, people or language models). Because there is hardly any
data available for such a task, most solutions involve unsupervised methods to
align two embeddings and predict semantic change with respect to a distance
measure. To that end, we propose a self-supervised approach to model lexical
semantic change by generating training samples by introducing perturbations of
word vectors in the input corpora. We show that our method can be used for the
detection of semantic change with any alignment method. Furthermore, it can be
used to choose the landmark words to use in alignment and can lead to
substantial improvements over the existing techniques for alignment.
We illustrate the utility of our techniques using experimental results on
three different datasets, involving words with the same or different meanings.
Our methods not only provide significant improvements but also can lead to
novel findings for the LSC problem.
- Abstract(参考訳): 言語の使用は、時間とともに社会グループや知識ドメインにまたがる変化の対象となるため、単言語シナリオにおいても違いが生じる。
このような単語の使用の変化は、しばしば lexical semantic change (lsc) と呼ばれる。
LSCの目標は、単語の意味に関する言語のバリエーションを特徴づけ、定量化し、2つの言語ソース(すなわち、人または言語モデル)がどのように異なるかを測定することです。
このようなタスクに利用可能なデータはほとんどないため、ほとんどのソリューションは、2つの埋め込みを調整し、距離測度に関して意味変化を予測する教師なしの手法を含む。
そこで本研究では,単語ベクトルの摂動を入力コーパスに導入することにより,学習サンプルを生成することで語彙意味変化をモデル化する自己教師型アプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
さらに、アライメントで使用するランドマークの単語を選択するために使用することができ、アライメントのための既存の技術よりも大幅に改善することができます。
3つの異なるデータセットで実験結果を用いて,同じ意味や異なる意味を持つ単語を含む手法の有用性を示す。
提案手法は大きな改善をもたらすだけでなく,LSC問題に対する新たな発見につながる可能性がある。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Definition generation for lexical semantic change detection [3.7297237438000788]
ダイアクロニック辞書意味変化検出(LSCD)タスクにおける意味表現として,大言語モデルによって生成された文脈化された単語定義を用いる。
つまり、生成された定義を感覚として使用し、比較対象単語の変化スコアを、比較対象単語の分布を2つの期間に比較して検索する。
本手法は従来の非教師付きLSCD法と同等か優れる。
論文 参考訳(メタデータ) (2024-06-20T10:13:08Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Grammatical Profiling for Semantic Change Detection [6.3596637237946725]
文法的プロファイリングを意味変化検出の代替手法として用いている。
意味的変化の検出に使用することができ、また、いくつかの分布的意味的手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2021-09-21T18:38:18Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Word Embeddings: Stability and Semantic Change [0.0]
本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
論文 参考訳(メタデータ) (2020-07-23T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。