論文の概要: DiaLex: A Benchmark for Evaluating Multidialectal Arabic Word Embeddings
- arxiv url: http://arxiv.org/abs/2011.10970v2
- Date: Sat, 13 Mar 2021 04:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 09:07:52.898069
- Title: DiaLex: A Benchmark for Evaluating Multidialectal Arabic Word Embeddings
- Title(参考訳): DiaLex:多方言アラビア語単語埋め込みの評価ベンチマーク
- Authors: Muhammad Abdul-Mageed, Shady Elbassuoni, Jad Doughman, AbdelRahim
Elmadany, El Moatez Billah Nagoudi, Yorgo Zoughby, Ahmad Shaher, Iskander
Gaba, Ahmed Helal, Mohammed El-Razzaz
- Abstract要約: DiaLexは、方言アラビア語単語の埋め込みの本質的な評価のためのベンチマークである。
ダイレックスは、アルジェリア語、エジプト語、レバノン語、シリア語、チュニジア語の5つの重要なアラビア方言をカバーしている。
DiaLexは5つの方言のそれぞれの6つの関係を表す単語対からなる。
- 参考スコア(独自算出の注目度): 9.778321240443107
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Word embeddings are a core component of modern natural language processing
systems, making the ability to thoroughly evaluate them a vital task. We
describe DiaLex, a benchmark for intrinsic evaluation of dialectal Arabic word
embedding. DiaLex covers five important Arabic dialects: Algerian, Egyptian,
Lebanese, Syrian, and Tunisian. Across these dialects, DiaLex provides a
testbank for six syntactic and semantic relations, namely male to female,
singular to dual, singular to plural, antonym, comparative, and genitive to
past tense. DiaLex thus consists of a collection of word pairs representing
each of the six relations in each of the five dialects. To demonstrate the
utility of DiaLex, we use it to evaluate a set of existing and new Arabic word
embeddings that we developed. Our benchmark, evaluation code, and new word
embedding models will be publicly available.
- Abstract(参考訳): 単語埋め込みは、現代の自然言語処理システムのコアコンポーネントであり、それらを徹底的に評価する能力は重要なタスクである。
DiaLexは、方言アラビア語単語の埋め込みの本質的な評価のためのベンチマークである。
アラビア語の方言はアルジェリア語、エジプト語、レバノン語、シリア語、チュニジア語である。
これらの方言全体で、DiaLexは6つの統語的・意味的な関係、すなわち男性から女性、特異から双対、特異から複数、反語、比較、属から過去の時制に関するテストバンクを提供する。
DiaLexは5つの方言のそれぞれの6つの関係を表す単語対の集合で構成されている。
DiaLexの実用性を実証するために、私たちが開発した既存のアラビア語単語と新しいアラビア語単語の埋め込みのセットを評価する。
私たちのベンチマーク、評価コード、新しい単語埋め込みモデルが公開される予定だ。
関連論文リスト
- Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - What an Elegant Bridge: Multilingual LLMs are Biased Similarly in Different Languages [51.0349882045866]
本稿では,Large Language Models (LLMs) の文法的ジェンダーのレンズによるバイアスについて検討する。
様々な言語における形容詞を持つ名詞を記述するためのモデルを提案し,特に文法性のある言語に焦点を当てた。
単純な分類器は、偶然以上の名詞の性別を予測できるだけでなく、言語間の移動可能性も示せる。
論文 参考訳(メタデータ) (2024-07-12T22:10:16Z) - An Evaluation Dataset for Legal Word Embedding: A Case Study On Chinese
Codex [3.1854529627213273]
単語埋め込みは、多くの自然言語処理タスクで広く使われている現代の分散語表現である。
本稿では,5種類の法的関係を利用して,2,388の中国語コーパスから1,134の法的アナロジカル推論質問セット(LARQS)を確立することを提案する。
論文 参考訳(メタデータ) (2022-03-29T01:26:26Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - AfriVEC: Word Embedding Models for African Languages. Case Study of Fon
and Nobiin [0.015863809575305417]
FonとNobiin用のWord2VecとPoincarのワード埋め込みモデルを構築します。
私たちの主な貢献は、アフリカの言語に適した単語埋め込みモデルを作成することへの関心を高めることです。
論文 参考訳(メタデータ) (2021-03-08T22:58:20Z) - Enhanced word embeddings using multi-semantic representation through
lexical chains [1.8199326045904998]
フレキシブル・レキシカル・チェーンIIと固定レキシカル・チェーンIIという2つの新しいアルゴリズムを提案する。
これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの以前の知識、および単一のシステムを形成するビルディングブロックとしての単語埋め込みにおける分布仮説の堅牢性を組み合わせている。
その結果、語彙チェーンと単語埋め込み表現の統合は、より複雑なシステムに対しても、最先端の結果を維持します。
論文 参考訳(メタデータ) (2021-01-22T09:43:33Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - I3rab: A New Arabic Dependency Treebank Based on Arabic Grammatical
Theory [0.0]
本稿では,従来のアラビア語文法理論とアラビア語の特徴に基づいて,新たなアラビア語依存ツリーバンクを構築することを目的とする。
提案されたアラビア語依存ツリーバンクはI3rabと呼ばれ、2つの主要な概念で既存のアラビア語依存ツリーバンクとは対照的である。
論文 参考訳(メタデータ) (2020-07-11T13:34:44Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。