論文の概要: Indian Language Wordnets and their Linkages with Princeton WordNet
- arxiv url: http://arxiv.org/abs/2201.02977v1
- Date: Sun, 9 Jan 2022 10:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 03:39:41.314376
- Title: Indian Language Wordnets and their Linkages with Princeton WordNet
- Title(参考訳): インドのwordnetsとプリンストンwordnetとの関係
- Authors: Diptesh Kanojia, Kevin Patel, Pushpak Bhattacharyya
- Abstract要約: Princeton WordNetにリンクした18の言語ワードネットのマッピングをリリースする。
このようなリソースの入手は、これらの言語におけるNLPの進歩に直接的な影響を与えるだろうと考えています。
- 参考スコア(独自算出の注目度): 38.50911435531732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wordnets are rich lexico-semantic resources. Linked wordnets are extensions
of wordnets, which link similar concepts in wordnets of different languages.
Such resources are extremely useful in many Natural Language Processing (NLP)
applications, primarily those based on knowledge-based approaches. In such
approaches, these resources are considered as gold standard/oracle. Thus, it is
crucial that these resources hold correct information. Thereby, they are
created by human experts. However, human experts in multiple languages are hard
to come by. Thus, the community would benefit from sharing of such manually
created resources. In this paper, we release mappings of 18 Indian language
wordnets linked with Princeton WordNet. We believe that availability of such
resources will have a direct impact on the progress in NLP for these languages.
- Abstract(参考訳): ワードネットは豊富なレキシコ・セマンティクス資源である。
linked wordnets は wordnet の拡張であり、異なる言語の wordnet で同様の概念をリンクする。
このようなリソースは多くの自然言語処理(NLP)アプリケーションで非常に有用であり、主に知識に基づくアプローチに基づいている。
このようなアプローチでは、これらのリソースはゴールドスタンダード/オラクルとみなされる。
したがって、これらの資源が正しい情報を持っていることが重要である。
したがって、人間の専門家によって創造される。
しかし、複数の言語の人間の専門家は理解しづらい。
したがって、コミュニティはこのような手作業によるリソースの共有の恩恵を受けるだろう。
本稿では、プリンストン・ワードネットに関連付けられた18の言語単語ネットのマッピングをリリースする。
このようなリソースの可用性は、これらの言語におけるnlpの進展に直接影響すると信じています。
関連論文リスト
- Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文 参考訳(メタデータ) (2023-12-12T01:42:41Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Contextualising Levels of Language Resourcedness affecting Digital
Processing of Text [0.5620321106679633]
我々は,全言語における直交型論 LRL と HRL が問題であると主張している。
特徴付けは、ツールを数えるのではなく、各カテゴリの文脈的特徴の類型化に基づいている。
論文 参考訳(メタデータ) (2023-09-29T07:48:24Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - A Survey of Corpora for Germanic Low-Resource Languages and Dialects [18.210880703295253]
この研究は低リソース言語、特に非標準の低リソース言語に焦点を当てている。
研究を促進するために,80以上のコーパスの概要を公開している。
論文 参考訳(メタデータ) (2023-04-19T16:45:16Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - Semi-automatic WordNet Linking using Word Embeddings [33.15250956247636]
リンクされたワードネットは、異なる言語のワードネットで同様の概念をリンクするワードネットの拡張である。
本稿では,ワードネットをリンクする手法を提案する。ソースコードのシンセセットが与えられた場合,候補候補シンセセットのランクリストを返す。
我々の手法は、すべての合成集合の60%と名詞の合成集合の70%で上位10位の合成集合を検索することができる。
論文 参考訳(メタデータ) (2022-01-05T18:15:55Z) - When Word Embeddings Become Endangered [0.685316573653194]
本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
論文 参考訳(メタデータ) (2021-03-24T15:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。