論文の概要: SALMA: Arabic Sense-Annotated Corpus and WSD Benchmarks
- arxiv url: http://arxiv.org/abs/2310.19029v1
- Date: Sun, 29 Oct 2023 14:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:49:48.885401
- Title: SALMA: Arabic Sense-Annotated Corpus and WSD Benchmarks
- Title(参考訳): SALMA: アラビアセンスアノテーションコーパスとWSDベンチマーク
- Authors: Mustafa Jarrar, Sanad Malaysha, Tymaa Hammouda, Mohammed Khalilia
- Abstract要約: SALMAは、最初のアラビア語の感覚アノテーション付きコーパスで、34Kのトークンで構成されており、すべて感覚アノテーション付きである。
単語に対して複数の感覚を評価するためのスマートなWebベースのアノテーションツールが開発された。
単語センスの曖昧さのベースラインを確立するために,エンド・ツー・エンドの単語センスの曖昧さの解消システムを開発した。
- 参考スコア(独自算出の注目度): 0.5461938536945721
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: SALMA, the first Arabic sense-annotated corpus, consists of ~34K tokens,
which are all sense-annotated. The corpus is annotated using two different
sense inventories simultaneously (Modern and Ghani). SALMA novelty lies in how
tokens and senses are associated. Instead of linking a token to only one
intended sense, SALMA links a token to multiple senses and provides a score to
each sense. A smart web-based annotation tool was developed to support scoring
multiple senses against a given word. In addition to sense annotations, we also
annotated the corpus using six types of named entities. The quality of our
annotations was assessed using various metrics (Kappa, Linear Weighted Kappa,
Quadratic Weighted Kappa, Mean Average Error, and Root Mean Square Error),
which show very high inter-annotator agreement. To establish a Word Sense
Disambiguation baseline using our SALMA corpus, we developed an end-to-end Word
Sense Disambiguation system using Target Sense Verification. We used this
system to evaluate three Target Sense Verification models available in the
literature. Our best model achieved an accuracy with 84.2% using Modern and
78.7% using Ghani. The full corpus and the annotation tool are open-source and
publicly available at https://sina.birzeit.edu/salma/.
- Abstract(参考訳): SALMAは、最初のアラビア語の感覚アノテーション付きコーパスで、34Kのトークンで構成されており、全て感覚アノテーション付きである。
コーパスは2つの異なる感覚の在庫(ModernとGhani)を使って同時に注釈付けされる。
SALMAの新規性はトークンと感覚の関連性にある。
トークンを1つの意味だけにリンクするのではなく、SALMAはトークンを複数の感覚にリンクし、各感覚にスコアを提供する。
単語に対して複数の感覚を評価するためのスマートなWebベースのアノテーションツールが開発された。
アノテーションの他に、6種類の名前付きエンティティを使ってコーパスに注釈を付けました。
注記の質は,様々な指標(kappa,線形重み付きkappa,二次重み付きkappa,平均平均誤差,根平均二乗誤差)を用いて評価した。
SALMAコーパスを用いたWord Sense Disambiguationベースラインを確立するために,ターゲットセンス検証を用いたエンドツーエンドのWord Sense Disambiguationシステムを開発した。
本システムを用いて3つの目標感覚検証モデルの評価を行った。
我々の最良のモデルは84.2%の精度で現代語を使用し、78.7%はガニ語を使用した。
完全なコーパスとアノテーションツールはオープンソースであり、https://sina.birzeit.edu/salma/で公開されている。
関連論文リスト
- Can Word Sense Distribution Detect Semantic Changes of Words? [35.17635565325166]
単語感覚分布は、英語、ドイツ語、スウェーデン語、ラテン語の単語の意味変化を正確に予測するために使用できることを示す。
SemEval 2020 Task 1のデータセットを用いた実験結果から,単語の意味的変化を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2023-10-16T13:41:27Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT [1.2891210250935146]
Wojoodは550K Modern Standard Arabic (MSA)と21のエンティティタイプで手動で注釈付けされた方言トークンで構成されている。
データには約75Kのエンティティが含まれ、うち22.5%がネストされている。
私たちのコーパス、アノテーションガイドライン、ソースコード、事前訓練されたモデルが公開されています。
論文 参考訳(メタデータ) (2022-05-19T16:06:49Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - Large Scale Substitution-based Word Sense Induction [48.49573297876054]
本稿では,事前学習されたマスキング言語モデル(MLM)に基づく単語センス誘導手法を提案する。
その結果、コーパス由来の感覚インベントリに基づいて感覚タグ付けされ、各感覚が指示語に関連付けられているコーパスとなる。
本手法を用いた英語ウィキペディアの評価では,Babelfy などの WSD 手法と比較しても,誘導された感覚とインスタンスごとの感覚代入の両方が高品質であることがわかった。
論文 参考訳(メタデータ) (2021-10-14T19:40:37Z) - NUBOT: Embedded Knowledge Graph With RASA Framework for Generating
Semantic Intents Responses in Roman Urdu [0.0]
本稿では、対応するローマウルドゥ非構造化データに対する正確な意図の生成について述べる。
我々はこのコーパスをRASA NLUモジュールに統合して意図分類を行う。
論文 参考訳(メタデータ) (2021-02-20T18:17:21Z) - SensPick: Sense Picking for Word Sense Disambiguation [1.1429576742016154]
我々は,対象単語の文脈情報と関連する光沢情報の両方を用いて,単語とグルースの集合間の意味的関係をモデル化する。
We propose SensPick, a type of stacked bidirectional Long Short Term Memory (LSTM) network to perform the WSD task。
論文 参考訳(メタデータ) (2021-02-10T04:52:42Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Moving Down the Long Tail of Word Sense Disambiguation with
Gloss-Informed Biencoders [79.38278330678965]
Word Sense Disambiguation (WSD)の主な障害は、単語感覚が均一に分散されないことである。
本稿では,(1)対象語とその周囲の文脈を独立に埋め込んだバイエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-05-06T04:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。