論文の概要: Persian-WSD-Corpus: A Sense Annotated Corpus for Persian All-words Word
Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2107.01540v1
- Date: Sun, 4 Jul 2021 05:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:04:25.483372
- Title: Persian-WSD-Corpus: A Sense Annotated Corpus for Persian All-words Word
Sense Disambiguation
- Title(参考訳): ペルシャ語-WSD-Corpus:ペルシャ語全語用注釈付きコーパス
- Authors: Hossein Rouhizadeh, Mehrnoush Shamsfard, Vahideh Tajalli, and Masoud
Rouhziadeh
- Abstract要約: ペルシャ語全語WSDタスクの最初の標準テストセットとしてSBU-WSD-Corpusを紹介した。
SBU-WSD-Corpusは、ペルシャ語のWordNet(FarsNet)のインベントリから、手動で注釈付けされている。
ペルシャ語実行文の5892語と、手動で注釈付き単語を感知する3371語が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word Sense Disambiguation (WSD) is a long-standing task in Natural Language
Processing(NLP) that aims to automatically identify the most relevant meaning
of the words in a given context. Developing standard WSD test collections can
be mentioned as an important prerequisite for developing and evaluating
different WSD systems in the language of interest. Although many WSD test
collections have been developed for a variety of languages, no standard
All-words WSD benchmark is available for Persian. In this paper, we address
this shortage for the Persian language by introducing SBU-WSD-Corpus, as the
first standard test set for the Persian All-words WSD task. SBU-WSD-Corpus is
manually annotated with senses from the Persian WordNet (FarsNet) sense
inventory. To this end, three annotators used SAMP (a tool for sense annotation
based on FarsNet lexical graph) to perform the annotation task. SBU-WSD-Corpus
consists of 19 Persian documents in different domains such as Sports, Science,
Arts, etc. It includes 5892 content words of Persian running text and 3371
manually sense annotated words (2073 nouns, 566 verbs, 610 adjectives, and 122
adverbs). Providing baselines for future studies on the Persian All-words WSD
task, we evaluate several WSD models on SBU-WSD-Corpus. The corpus is publicly
available at https://github.com/hrouhizadeh/SBU-WSD-Corpus.
- Abstract(参考訳): word sense disambiguation (wsd) は自然言語処理 (nlp) における長年のタスクであり、与えられた文脈における単語の最も関連する意味を自動的に識別することを目的としている。
標準のwsdテストコレクションの開発は、関心のある言語で異なるwsdシステムを開発および評価するための重要な前提条件として言及することができる。
多くのWSDテストコレクションは様々な言語で開発されているが、標準のAll-words WSDベンチマークはペルシア語では利用できない。
本稿では,SBU-WSD-Corpusをペルシャ語全語WSDタスクの最初の標準テストセットとして導入することで,ペルシア語のこの不足に対処する。
sbu-wsd-corpusはペルシア語のwordnet (farsnet) senseインベントリからのセンスを手動で注釈する。
この目的のために、3つのアノテータはSAMP(FarsNet語彙グラフに基づくアノテーション認識ツール)を使用してアノテーションタスクを実行した。
SBU-WSD-Corpusは、スポーツ、科学、芸術など、さまざまな領域における19のペルシア文書からなる。
ペルシア語のランニングテキスト5892語と、手動で注釈付き単語(2073名詞、566動詞、610形容詞、122副詞)を知覚する3371語が含まれている。
ペルシャ語全語WSDタスクの今後の研究のベースラインを提供するため、SBU-WSD-Corpus上で複数のWSDモデルを評価する。
コーパスはhttps://github.com/hrouhizadeh/SBU-WSD-Corpusで公開されている。
関連論文リスト
- Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - SALMA: Arabic Sense-Annotated Corpus and WSD Benchmarks [0.5461938536945721]
SALMAは、最初のアラビア語の感覚アノテーション付きコーパスで、34Kのトークンで構成されており、すべて感覚アノテーション付きである。
単語に対して複数の感覚を評価するためのスマートなWebベースのアノテーションツールが開発された。
単語センスの曖昧さのベースラインを確立するために,エンド・ツー・エンドの単語センスの曖昧さの解消システムを開発した。
論文 参考訳(メタデータ) (2023-10-29T14:36:37Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian [0.0]
テキストの明確化にParsBERTを組み込んだViraPartフレームワークを提案する。
最終的に、提案されたZWNJ認識モデル、句読点復元モデル、ペルシャ・エザフ構成モデルは、それぞれ96.90%、92.13%、98.50%の平均的なF1マクロスコアを実行する。
論文 参考訳(メタデータ) (2021-10-18T08:20:40Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - SensPick: Sense Picking for Word Sense Disambiguation [1.1429576742016154]
我々は,対象単語の文脈情報と関連する光沢情報の両方を用いて,単語とグルースの集合間の意味的関係をモデル化する。
We propose SensPick, a type of stacked bidirectional Long Short Term Memory (LSTM) network to perform the WSD task。
論文 参考訳(メタデータ) (2021-02-10T04:52:42Z) - The Annotation Guideline of LST20 Corpus [0.3161954199291541]
データセットは、使いやすさのためにCoNLL-2003スタイルのフォーマットに準拠している。
大規模では3,164,864語、288,020語、248,962節、74,180文からなる。
3,745件の文書には15のニュースジャンルが注釈付けされている。
論文 参考訳(メタデータ) (2020-08-12T01:16:45Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。