論文の概要: Advancing the Arabic WordNet: Elevating Content Quality
- arxiv url: http://arxiv.org/abs/2403.20215v1
- Date: Fri, 29 Mar 2024 14:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:24:49.803441
- Title: Advancing the Arabic WordNet: Elevating Content Quality
- Title(参考訳): アラビア語WordNetの進化:コンテンツ品質の向上
- Authors: Abed Alhakim Freihat, Hadi Khalilia, Gábor Bella, Fausto Giunchiglia,
- Abstract要約: 本稿では,複数次元のレキシコ・セマンティックな資源品質に対処するアラビア語WordNetの大規模な改訂について紹介する。
既存のアラビア語のWordNetのシンセセットの58%以上を更新します。
言語多様性と非翻訳性の問題に対処するため,新しい要素であるフレーズと語彙のギャップによってワードネット構造を拡張した。
- 参考スコア(独自算出の注目度): 8.438749883590216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality WordNets are crucial for achieving high-quality results in NLP applications that rely on such resources. However, the wordnets of most languages suffer from serious issues of correctness and completeness with respect to the words and word meanings they define, such as incorrect lemmas, missing glosses and example sentences, or an inadequate, Western-centric representation of the morphology and the semantics of the language. Previous efforts have largely focused on increasing lexical coverage while ignoring other qualitative aspects. In this paper, we focus on the Arabic language and introduce a major revision of the Arabic WordNet that addresses multiple dimensions of lexico-semantic resource quality. As a result, we updated more than 58% of the synsets of the existing Arabic WordNet by adding missing information and correcting errors. In order to address issues of language diversity and untranslatability, we also extended the wordnet structure by new elements: phrasets and lexical gaps.
- Abstract(参考訳): 高品質なWordNetは、そのようなリソースに依存するNLPアプリケーションにおいて、高品質な結果を達成するために不可欠である。
しかし、ほとんどの言語のワードネットは、不正確な補題、失語、例文、形態学と言語の意味論の不十分で西洋中心の表現など、それらが定義する単語や単語の意味に関して、真正さと完全さの深刻な問題に悩まされている。
それまでの取り組みは、他の質的な側面を無視しながら、語彙的カバレッジの向上に重点を置いてきた。
本稿では,アラビア語に焦点をあて,複数次元のレキシコ・セマンティックな資源品質に対処するアラビア語WordNetの大規模な改訂を導入する。
その結果,既存のアラビア語のWordNetのシンセセットの58%以上を更新し,不足情報の追加と誤りの修正を行った。
言語多様性と非翻訳性の問題に対処するため,新しい要素であるフレーズと語彙のギャップによってワードネット構造を拡張した。
関連論文リスト
- Word Sense Disambiguation in Native Spanish: A Comprehensive Lexical Evaluation Resource [2.7775559369441964]
文脈における単語の語彙的意味は、Word Sense Disambiguation (WSD)アルゴリズムによって自動的に決定できる。
本稿では,スペインのWSDの新たな資源について紹介する。
センセーショナルインベントリと、ディクシオリオ・デ・ラ・レングア・エスパノラ(Diccionario de la Lengua Espanola)に由来する語彙データセットを含んでいる。
論文 参考訳(メタデータ) (2024-09-30T17:22:33Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - On the Difficulty of Translating Free-Order Case-Marking Languages [2.9434930072968584]
我々は、最先端のニューラルマシン翻訳モデル(NMT)により、自由順序のケースマーキング言語が翻訳困難であるかどうかを検討する。
ソース言語における単語順の柔軟性は、NMTの品質を非常に低下させるだけである。
中・低リソース環境では、固定順序言語の全体的なNMT品質は未整合のままである。
論文 参考訳(メタデータ) (2021-07-13T13:09:58Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - Multi-Fusion Chinese WordNet (MCW) : Compound of Machine Learning and
Manual Correction [7.471172518764192]
文法と意味論の問題を解決するために,中国語の5つのワーネットが開発された。
その中には、ノースイースタン大学 Chinese WordNet (NEW), Sinica Bilingual Ontological WordNet (BOW), Southeast University Chinese WordNet (SEW), Taiwan University Chinese WordNet (CWN), Chinese Open WordNet (COW)などが含まれる。
我々は、これらの欠点を補うために、Multi-Fusion Chinese Wordnet(MCW)と呼ばれる新しい中国語のワードネットを作ることに決めた。
論文 参考訳(メタデータ) (2020-02-05T12:44:01Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。