論文の概要: PREDICT: Persian Reverse Dictionary
- arxiv url: http://arxiv.org/abs/2105.00309v1
- Date: Sat, 1 May 2021 17:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 06:07:21.319536
- Title: PREDICT: Persian Reverse Dictionary
- Title(参考訳): 予測:ペルシア語逆辞書
- Authors: Arman Malekzadeh and Amin Gheibi and Ali Mohades
- Abstract要約: ペルシャ逆辞書実装のための4つの異なるアーキテクチャの比較 (予測)
我々は,オンラインで利用可能な唯一のペルシア語辞書から抽出した (phrase,word) 単語を用いてモデルを評価する。
実験では、付加的注意メカニズムによって強化されたLong Short-Term Memory(LSTM)単位からなるモデルが、元の辞書の単語に匹敵する(場合によってはより良い)提案を作成するのに十分であることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding the appropriate words to convey concepts (i.e., lexical access) is
essential for effective communication. Reverse dictionaries fulfill this need
by helping individuals to find the word(s) which could relate to a specific
concept or idea. To the best of our knowledge, this resource has not been
available for the Persian language. In this paper, we compare four different
architectures for implementing a Persian reverse dictionary (PREDICT).
We evaluate our models using (phrase,word) tuples extracted from the only
Persian dictionaries available online, namely Amid, Moein, and Dehkhoda where
the phrase describes the word. Given the phrase, a model suggests the most
relevant word(s) in terms of the ability to convey the concept. The model is
considered to perform well if the correct word is one of its top suggestions.
Our experiments show that a model consisting of Long Short-Term Memory (LSTM)
units enhanced by an additive attention mechanism is enough to produce
suggestions comparable to (or in some cases better than) the word in the
original dictionary. The study also reveals that the model sometimes produces
the synonyms of the word as its output which led us to introduce a new metric
for the evaluation of reverse dictionaries called Synonym Accuracy accounting
for the percentage of times the event of producing the word or a synonym of it
occurs. The assessment of the best model using this new metric also indicates
that at least 62% of the times, it produces an accurate result within the top
100 suggestions.
- Abstract(参考訳): 概念(すなわち語彙アクセス)を伝える適切な単語を見つけることは効果的なコミュニケーションには不可欠である。
逆辞書は、個人が特定の概念や考えに関係のある単語を見つけるのを助けることで、このニーズを満たす。
私たちの知る限りでは、この資源はペルシア語では利用できない。
本稿ではペルシャ語逆辞書(PREDICT)を実装するための4つの異なるアーキテクチャを比較する。
我々は,オンラインで利用可能な唯一のペルシア語辞書であるアンダー語,モエイン語,デフホダ語から抽出した(フレーズ,ワード)タプルを用いてモデルを評価する。
このフレーズが与えられた場合、モデルは概念を伝える能力において最も関連性の高い単語を示唆する。
このモデルは、正しい単語がその最上位の提案の1つである場合、うまく機能すると考えられている。
実験の結果,加法的アテンション機構によって拡張された長短記憶(LSTM)ユニットからなるモデルでは,元の辞書の単語に匹敵する(場合によってはより優れている)提案が得られた。
また,このモデルでは,単語の同義語を出力として生成する場合があり,この結果から,単語の生成や同義語の発生の回数について,Synonym Accuracyと呼ばれる逆辞書の評価のための新しい指標を導入することができた。
この新しい指標を用いた最良のモデルの評価は、少なくとも62%の確率で、上位100の提案の中で正確な結果が得られることを示している。
関連論文リスト
- Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Chinese Word Sense Embedding with SememeWSD and Synonym Set [17.37973450772783]
本稿では,多文単語のすべての感覚に異なるベクトルを割り当てるために,SememeWSD Synonym(SWSDS)モデルを提案する。
OpenHowNetから単語センスの上位10の同義語を取得し、単語センスのベクトルとして同義語の平均ベクトルを算出する。
実験では,Gensimのwmdistance法を用いて意味的類似性計算におけるSWSDSモデルの評価を行った。
論文 参考訳(メタデータ) (2022-06-29T03:42:03Z) - A Unified Model for Reverse Dictionary and Definition Modelling [7.353994554197792]
我々は、定義(逆辞書)から単語を推測し、与えられた単語(定義モデリング)を生成するために、二方向ニューラル辞書を訓練する。
本手法は,2つのタスクを同時に学習し,埋め込みによる未知語処理を行う。
単語や定義を共有層を通じて同じ表現空間にキャストし、そこから他の形式をマルチタスク形式で生成する。
論文 参考訳(メタデータ) (2022-05-09T23:52:39Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。