論文の概要: A Benchmark and Scoring Algorithm for Enriching Arabic Synonyms
- arxiv url: http://arxiv.org/abs/2302.02232v1
- Date: Sat, 4 Feb 2023 20:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:30:31.893056
- Title: A Benchmark and Scoring Algorithm for Enriching Arabic Synonyms
- Title(参考訳): アラビア語の同義語強化のためのベンチマークとスコーリングアルゴリズム
- Authors: Sana Ghanem, Mustafa Jarrar, Radi Jarrar, Ibrahim Bounhas
- Abstract要約: モノ/マルチリンガルシンセットとしきい値(ファジィ値[0-1])が与えられた場合、我々のゴールは既存のレキシコンからこのしきい値の上に新しい同義語を抽出することである。
データセットは500シンセットの3K候補シノニムで構成されている。
評価の結果,アルゴリズムは言語学者のように振る舞うことができ,ファジィ値は言語学者が提案したものに近いことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the task of extending a given synset with additional
synonyms taking into account synonymy strength as a fuzzy value. Given a
mono/multilingual synset and a threshold (a fuzzy value [0-1]), our goal is to
extract new synonyms above this threshold from existing lexicons. We present
twofold contributions: an algorithm and a benchmark dataset. The dataset
consists of 3K candidate synonyms for 500 synsets. Each candidate synonym is
annotated with a fuzzy value by four linguists. The dataset is important for
(i) understanding how much linguists (dis/)agree on synonymy, in addition to
(ii) using the dataset as a baseline to evaluate our algorithm. Our proposed
algorithm extracts synonyms from existing lexicons and computes a fuzzy value
for each candidate. Our evaluations show that the algorithm behaves like a
linguist and its fuzzy values are close to those proposed by linguists (using
RMSE and MAE). The dataset and a demo page are publicly available at
https://portal.sina.birzeit.edu/synonyms.
- Abstract(参考訳): 本稿では,同義語強度をファジィ値として考慮し,与えられたシンセセットを拡張するタスクについて述べる。
mono/multilingual synsetとしきい値(ファジィ値 [0-1])が与えられたとき、我々の目標は、既存のレキシコンからこのしきい値を超える新しいシノニムを抽出することである。
アルゴリズムとベンチマークデータセットという2つのコントリビューションを提示します。
データセットは500シンセットの3K候補シノニムで構成されている。
各候補は4人の言語学者によってファジィ値で注釈付けされる。
データセットは重要です
(i)同義語に関する言語学者(dis/)の語義を理解することに加えて
2) データセットをベースラインとして,アルゴリズムの評価を行う。
提案アルゴリズムは,既存の語彙から同義語を抽出し,各候補に対するファジィ値を算出する。
評価の結果,このアルゴリズムは言語学者のように振る舞うことができ,ファジィ値は言語学者によって提案されたものに近い(RMSEとMAEを用いて)。
データセットとデモページはhttps://portal.sina.birzeit.edu/synonymsで公開されている。
関連論文リスト
- Computational Approaches for Integrating out Subjectivity in Cognate Synonym Selection [45.14832807541816]
言語系統学の初期において、一つの同義語のみを選択することが推奨された。
バイナリ文字行列は、すべての同義語を含むデータセット全体を表現することができることを示す。
また、CLDFフォーマットで提供されるコグネートデータに対して、上記のすべてのキャラクタマトリックスタイプを生成するためのPythonインターフェースも提供しています。
論文 参考訳(メタデータ) (2024-04-30T07:52:26Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Interval Probabilistic Fuzzy WordNet [8.396691008449704]
本稿では,任意の言語でIPF(Interval Probabilistic Fuzzy)シンセサイザーを構築するアルゴリズムを提案する。
我々は、英語のためのWordNetのIPFシンセセットを構築し、公開した。
論文 参考訳(メタデータ) (2021-04-04T17:28:37Z) - Extracting Synonyms from Bilingual Dictionaries [1.1470070927586016]
本稿では,バイリンガル辞書から同義語を抽出する新しいアルゴリズムの開発について述べる。
この考え方は、翻訳対から翻訳グラフを構築し、次に巡回経路を抽出して統合し、同義語のバイリンガル集合を形成するというものである。
このアルゴリズムの最初の評価は、アラビア語と英語の両言語同義語を抽出する有望な結果を示している。
論文 参考訳(メタデータ) (2020-12-01T16:09:22Z) - PARADE: A New Dataset for Paraphrase Identification Requiring Computer
Science Domain Knowledge [35.66853329610162]
PARADEには、語彙や構文レベルではほとんど重複しないパラフレーズが含まれているが、コンピュータサイエンスのドメイン知識に基づいた意味論的に等価である。
実験により、最先端のニューラルモデルと熟練していない人間のアノテータの両方がPARADEの性能が劣っていることが示された。
論文 参考訳(メタデータ) (2020-10-08T02:01:31Z) - SynSetExpan: An Iterative Framework for Joint Entity Set Expansion and
Synonym Discovery [66.24624547470175]
SynSetExpanは2つのタスクを相互に拡張できる新しいフレームワークである。
クラウドソーシングによる最初の大規模Synonym-Enhanced Set Expansionデータセットを作成する。
SE2データセットと以前のベンチマークの実験では、エンティティセットの拡張と同義語発見タスクの両方においてSynSetExpanの有効性が示されている。
論文 参考訳(メタデータ) (2020-09-29T07:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。