論文の概要: Detecting New Word Meanings: A Comparison of Word Embedding Models in
Spanish
- arxiv url: http://arxiv.org/abs/2001.05285v1
- Date: Sun, 12 Jan 2020 21:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 04:39:55.976875
- Title: Detecting New Word Meanings: A Comparison of Word Embedding Models in
Spanish
- Title(参考訳): 新しい単語の意味の検出:スペイン語における単語埋め込みモデルの比較
- Authors: Andr\'es Torres-Rivera and Juan-Manuel Torres-Moreno
- Abstract要約: 意味的ネオロジズム(英: Semantic neologisms, SN)は、その形態を維持しつつ、新しい意味を持つ単語である。
SNを半自動で検出するために,以下の戦略の組み合わせを実装したシステムを開発した。
本稿では,Word2Vec,Sense2Vec,FastTextという単語埋め込みモデルについて検討する。
- 参考スコア(独自算出の注目度): 1.5356167668895644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic neologisms (SN) are defined as words that acquire a new word meaning
while maintaining their form. Given the nature of this kind of neologisms, the
task of identifying these new word meanings is currently performed manually by
specialists at observatories of neology. To detect SN in a semi-automatic way,
we developed a system that implements a combination of the following
strategies: topic modeling, keyword extraction, and word sense disambiguation.
The role of topic modeling is to detect the themes that are treated in the
input text. Themes within a text give clues about the particular meaning of the
words that are used, for example: viral has one meaning in the context of
computer science (CS) and another when talking about health. To extract
keywords, we used TextRank with POS tag filtering. With this method, we can
obtain relevant words that are already part of the Spanish lexicon. We use a
deep learning model to determine if a given keyword could have a new meaning.
Embeddings that are different from all the known meanings (or topics) indicate
that a word might be a valid SN candidate. In this study, we examine the
following word embedding models: Word2Vec, Sense2Vec, and FastText. The models
were trained with equivalent parameters using Wikipedia in Spanish as corpora.
Then we used a list of words and their concordances (obtained from our database
of neologisms) to show the different embeddings that each model yields.
Finally, we present a comparison of these outcomes with the concordances of
each word to show how we can determine if a word could be a valid candidate for
SN.
- Abstract(参考訳): 意味ネオロジズム(sn)は、形態を維持しながら新しい単語の意味を取得する単語として定義される。
この種のネオロジズムの性質を考えると、これらの新しい単語の意味を識別するタスクは、現在、neologyのオブザーバリーの専門家によって手作業で行われている。
SNを半自動で検出するために,トピックモデリング,キーワード抽出,単語感覚の曖昧さといった手法を組み合わせたシステムを開発した。
トピックモデリングの役割は、入力テキストで扱われるテーマを検出することである。
例えば、バイラルはコンピュータサイエンス(CS)の文脈で1つの意味を持ち、健康について話すときにもう1つの意味を持っている。
キーワードを抽出するために,posタグフィルタリング付きtextrankを用いた。
この方法では、既にスペイン語のレキシコンの一部である関連語を得ることができる。
ディープラーニングモデルを使用して、与えられたキーワードに新しい意味があるかどうかを判断します。
すべての既知の意味(あるいはトピック)とは異なる埋め込みは、単語が有効なsn候補であることを示している。
本研究では,Word2Vec,Sense2Vec,FastTextという単語埋め込みモデルについて検討した。
モデルは、スペイン語のwikipediaをコーパスとして、同等のパラメータでトレーニングされた。
次に、各モデルが生成する異なる埋め込みを示すために、単語のリストとその一致(ネオロジズムのデータベースから得られた)を使用しました。
最後に、これらの結果と各単語の一致を比較して、ある単語がSNの有効な候補であるかどうかを判断する方法を示す。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Review of Unsupervised POS Tagging and Its Implications on Language
Acquisition [0.0]
人間の構文知識の根底にある能力は、どの単語が類似した構造に現れるかを決定することである。
このプロセスの探索では、子どもと同じような目標を持つ様々な工学的アプローチについて検討する。
モデルの発展と言語習得との関連性を支持する共通テーマについて論じる。
論文 参考訳(メタデータ) (2023-12-15T19:31:00Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - IRB-NLP at SemEval-2022 Task 1: Exploring the Relationship Between Words
and Their Semantic Representations [0.0]
本研究は,CODWOEデータセットを用いた記述的,探索的,予測的データ分析に基づいて行った。
本稿では,定義モデリングとリバース辞書タスクのために設計したシステムの概要について述べる。
論文 参考訳(メタデータ) (2022-05-13T18:15:20Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Morphological Skip-Gram: Using morphological knowledge to improve word
representation [2.0129974477913457]
我々は,文字n-gramのFastTextバッグを単語形態素の袋に置き換えることで,単語埋め込みを訓練する新しい手法を提案する。
結果は、FastTextと比較して、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-07-20T12:47:36Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z) - Humpty Dumpty: Controlling Word Meanings via Corpus Poisoning [29.181547214915238]
埋め込み空間における単語の位置を変更することで、攻撃者が新しい単語や既存の単語の「意味」を制御できることが示される。
埋め込みに対する攻撃は、さまざまな下流タスクに影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-01-14T17:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。