論文の概要: An Analysis of Word2Vec for the Italian Language
- arxiv url: http://arxiv.org/abs/2001.09332v1
- Date: Sat, 25 Jan 2020 15:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 23:59:57.306658
- Title: An Analysis of Word2Vec for the Italian Language
- Title(参考訳): イタリア語におけるWord2Vecの分析
- Authors: Giovanni Di Gennaro, Amedeo Buonanno, Antonio Di Girolamo, Armando
Ospedale, Francesco A.N. Palmieri, Gianfranco Fedele
- Abstract要約: 単語表現は、機械にテキストを理解するように教えることを考えることができる単語間のセマンティック・クローズネスのコーディングからきているため、NLPタスクにおいて基本的なものである。
本研究では、Word2Vecアルゴリズムのセマンティック能力を分析し、イタリア語への埋め込みを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word representation is fundamental in NLP tasks, because it is precisely from
the coding of semantic closeness between words that it is possible to think of
teaching a machine to understand text. Despite the spread of word embedding
concepts, still few are the achievements in linguistic contexts other than
English. In this work, analysing the semantic capacity of the Word2Vec
algorithm, an embedding for the Italian language is produced. Parameter setting
such as the number of epochs, the size of the context window and the number of
negatively backpropagated samples is explored.
- Abstract(参考訳): 単語表現は、機械にテキストを理解するように教えることを考えることができる単語間の意味的近接性のコーディングから、NLPタスクにおいて基本的なものである。
単語埋め込みの概念は広まってはいるが、英語以外の言語的文脈での成果は少ない。
本研究では、Word2Vecアルゴリズムのセマンティック能力を分析し、イタリア語への埋め込みを生成する。
エポック数、コンテキストウィンドウのサイズ、負のバックプロパゲーションされたサンプルの数といったパラメータの設定について検討する。
関連論文リスト
- SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Semeval-2022 Task 1: CODWOE -- Comparing Dictionaries and Word
Embeddings [1.5293427903448025]
我々は不透明な単語ベクトルと人間可読な定義との関係に焦点をあてる。
この問題は自然に2つのサブタスクに分けられる: 定義を埋め込みに変換し、埋め込みを定義に変換する。
このタスクは、同質に訓練された埋め込みの同等のセットを使用して、多言語設定で実行された。
論文 参考訳(メタデータ) (2022-05-27T09:40:33Z) - A Survey On Neural Word Embeddings [0.4822598110892847]
自然言語処理における意味の研究は、分布仮説に依存する。
概念の分散表現という革命的な考えは、人間の心の働きに近い。
ニューラルワード埋め込みは、すべてのNLPタスクを大幅に改善することで、NLPの分野全体を変革した。
論文 参考訳(メタデータ) (2021-10-05T03:37:57Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Language-Independent Tokenisation Rivals Language-Specific Tokenisation
for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。
言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。
意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2020-02-25T16:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。