論文の概要: LU-BZU at SemEval-2021 Task 2: Word2Vec and Lemma2Vec performance in
Arabic Word-in-Context disambiguation
- arxiv url: http://arxiv.org/abs/2104.08110v1
- Date: Fri, 16 Apr 2021 13:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:26:05.031108
- Title: LU-BZU at SemEval-2021 Task 2: Word2Vec and Lemma2Vec performance in
Arabic Word-in-Context disambiguation
- Title(参考訳): LU-BZU at SemEval-2021 Task 2: Word2Vec and Lemma2Vec Performance in Arabic Word-in-Context disambiguation (英語)
- Authors: Moustafa Al-Hajj, Mustafa Jarrar
- Abstract要約: 本稿では, CBOW Word2Vec モデルと Lemma2Vec モデルを用いて, アラビア語-in-Context (WiC) の曖昧さを評価・比較するための実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a set of experiments to evaluate and compare between the
performance of using CBOW Word2Vec and Lemma2Vec models for Arabic
Word-in-Context (WiC) disambiguation without using sense inventories or sense
embeddings. As part of the SemEval-2021 Shared Task 2 on WiC disambiguation, we
used the dev.ar-ar dataset (2k sentence pairs) to decide whether two words in a
given sentence pair carry the same meaning. We used two Word2Vec models:
Wiki-CBOW, a pre-trained model on Arabic Wikipedia, and another model we
trained on large Arabic corpora of about 3 billion tokens. Two Lemma2Vec models
was also constructed based on the two Word2Vec models. Each of the four models
was then used in the WiC disambiguation task, and then evaluated on the
SemEval-2021 test.ar-ar dataset. At the end, we reported the performance of
different models and compared between using lemma-based and word-based models.
- Abstract(参考訳): 本稿では, CBOW Word2VecモデルとLemma2Vecモデルを用いて, 感覚インベントリや感覚埋め込みを使わずに, アラビア語のWord-in-Context(WiC)曖昧さを評価・比較する実験を行った。
WiC の曖昧さに関する SemEval-2021 Shared Task 2 の一部として,dev.ar-ar データセット (2k 文ペア) を用いて,与えられた文対に同じ意味があるかどうかを判定した。
私たちは2つのWord2Vecモデルを使用しました。Wiki-CBOWはアラビア語ウィキペディアで事前訓練されたモデルです。
2つのLemma2Vecモデルも2つのWord2Vecモデルに基づいて構築された。
4つのモデルはそれぞれWiCの曖昧化タスクで使われ、SemEval-2021 test.ar-arデータセットで評価された。
最終的に、異なるモデルの性能を報告し、レムマモデルと単語ベースモデルの比較を行った。
関連論文リスト
- Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - A Unified Model for Reverse Dictionary and Definition Modelling [7.353994554197792]
我々は、定義(逆辞書)から単語を推測し、与えられた単語(定義モデリング)を生成するために、二方向ニューラル辞書を訓練する。
本手法は,2つのタスクを同時に学習し,埋め込みによる未知語処理を行う。
単語や定義を共有層を通じて同じ表現空間にキャストし、そこから他の形式をマルチタスク形式で生成する。
論文 参考訳(メタデータ) (2022-05-09T23:52:39Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - PALI at SemEval-2021 Task 2: Fine-Tune XLM-RoBERTa for Word in Context
Disambiguation [6.243389472463914]
本稿では、SemEval-2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguationの受賞システムについて述べる。
我々はXLM-RoBERTaモデルを微調整し、文脈の曖昧さを解消する。
我々は4つの言語横断タスクで1位に達した。
論文 参考訳(メタデータ) (2021-04-21T06:24:49Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Introducing various Semantic Models for Amharic: Experimentation and
Evaluation with multiple Tasks and Datasets [19.855120632909124]
我々はAmharicの異なるセマンティックモデルを導入する。
モデルは word2Vec 埋め込み、分散シソーラス (DT)、コンテキスト埋め込み、DT 埋め込みを使って構築される。
新たに訓練されたモデルは、事前訓練された多言語モデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-02T17:48:25Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。