論文の概要: Novel Language Resources for Hindi: An Aesthetics Text Corpus and a
Comprehensive Stop Lemma List
- arxiv url: http://arxiv.org/abs/2002.00171v1
- Date: Sat, 1 Feb 2020 08:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 00:55:43.962885
- Title: Novel Language Resources for Hindi: An Aesthetics Text Corpus and a
Comprehensive Stop Lemma List
- Title(参考訳): ヒンディー語の新たな言語資源 : 審美的テキストコーパスと包括的停止補題リスト
- Authors: Gayatri Venugopal-Wairagade, Jatinderkumar R. Saini, Dhanya Pramod
- Abstract要約: 2つの新しいヒンディー語リソースが作成され、一般公開されている。
この研究は、ストップワードの代わりにストップレムマを使うことに重点を置いている。
また、停止語に比べ、停止語は複数のソースにまたがる一貫性が強いことが観察された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is an effort to complement the contributions made by researchers
working toward the inclusion of non-English languages in natural language
processing studies. Two novel Hindi language resources have been created and
released for public consumption. The first resource is a corpus consisting of
nearly thousand pre-processed fictional and nonfictional texts spanning over
hundred years. The second resource is an exhaustive list of stop lemmas created
from 12 corpora across multiple domains, consisting of over 13 million words,
from which more than 200,000 lemmas were generated, and 11 publicly available
stop word lists comprising over 1000 words, from which nearly 400 unique lemmas
were generated. This research lays emphasis on the use of stop lemmas instead
of stop words owing to the presence of various, but not all morphological forms
of a word in stop word lists, as opposed to the presence of only the root form
of the word, from which variations could be derived if required. It was also
observed that stop lemmas were more consistent across multiple sources as
compared to stop words. In order to generate a stop lemma list, the parts of
speech of the lemmas were investigated but rejected as it was found that there
was no significant correlation between the rank of a word in the frequency list
and its part of speech. The stop lemma list was assessed using a comparative
method. A formal evaluation method is suggested as future work arising from
this study.
- Abstract(参考訳): 本稿では,自然言語処理研究における非英語言語の導入に向けた研究者の貢献を補完する試みである。
2つの新しいヒンディー語リソースが作成され、一般公開されている。
最初の資料は、百年以上にわたる1000近い前処理されたフィクションとノンフィクションのテキストからなるコーパスである。
第2のリソースは、複数のドメインにまたがる12のコーパスから作成された停止補題の完全なリストで、1300万以上の単語から成り、20万以上の補題が生成され、1000以上の単語を含む11の公開可能な停止補題リストが400以上のユニークな補題が生成される。
本研究は,単語の根形のみの存在に対して,単語のすべての形態的形態が,必要であれば変化が引き起こされるような単語の根形のみの存在とは対照的に,停止語の存在によって,停止語の代わりに停止語を用いることを強調した。
また、停止語に比べ、停止語は複数のソースにまたがる一貫性が強いことが観察された。
停止補題リストを生成するために, 補題の音声部分について検討を行ったが, 周波数リスト中の単語のランクと発話部分との有意な相関が認められず, 否定された。
停止補題リストは比較手法を用いて評価した。
本研究は,今後の研究として,形式的評価手法を提案する。
関連論文リスト
- BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla
Lemmatizer [3.1742013359102175]
本稿では, 文法化のための言語規則を提案し, 辞書と組み合わせて, バングラの補題を設計する。
本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。
補綴器は、手動で注釈付けされたテストデータセットに対して、トレーニングによってテストすると96.36%の精度を達成する。
論文 参考訳(メタデータ) (2023-11-06T13:02:07Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Accuracy of the Uzbek stop words detection: a case study on "School
corpus" [0.0]
本稿では,自動生成を目的とした停止語リストの品質評価手法を提案する。
この手法はウズベク語の停止語のリストを自動生成してテストした。
論文 参考訳(メタデータ) (2022-09-15T05:14:31Z) - Deep Lexical Hypothesis: Identifying personality structure in natural
language [0.30458514384586394]
言語モデルから形容詞類似性を抽出する手法を提案する。
この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。
特に、神経症と開放性は弱く、矛盾なく回復するだけである。
論文 参考訳(メタデータ) (2022-03-04T02:06:10Z) - Bangla Natural Language Processing: A Comprehensive Review of Classical,
Machine Learning, and Deep Learning Based Methods [3.441093402715499]
バングラ語は世界で7番目に話される言語であり、2億6500万人の母国語話者と非母国語話者がいる。
英語は、オンラインリソース、技術知識、ジャーナル、ドキュメントの主要な言語である。
オンラインおよび技術分野において、Bangla言語の使用を容易にするため、多くの取り組みが進行中である。
論文 参考訳(メタデータ) (2021-05-31T10:58:58Z) - Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。
何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文 参考訳(メタデータ) (2021-02-03T18:19:16Z) - Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment [49.3253280592705]
我々は,bitextマイニングと教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
私たちの最終モデルは、BUCC 2020共有タスクの最先端を14 $F_1$ポイント、平均12以上の言語ペアで上回ります。
論文 参考訳(メタデータ) (2021-01-01T03:12:42Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - Speakers Fill Lexical Semantic Gaps with Context [69.30534067031734]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。