論文の概要: Novel Language Resources for Hindi: An Aesthetics Text Corpus and a
Comprehensive Stop Lemma List
- arxiv url: http://arxiv.org/abs/2002.00171v1
- Date: Sat, 1 Feb 2020 08:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 00:55:43.962885
- Title: Novel Language Resources for Hindi: An Aesthetics Text Corpus and a
Comprehensive Stop Lemma List
- Title(参考訳): ヒンディー語の新たな言語資源 : 審美的テキストコーパスと包括的停止補題リスト
- Authors: Gayatri Venugopal-Wairagade, Jatinderkumar R. Saini, Dhanya Pramod
- Abstract要約: 2つの新しいヒンディー語リソースが作成され、一般公開されている。
この研究は、ストップワードの代わりにストップレムマを使うことに重点を置いている。
また、停止語に比べ、停止語は複数のソースにまたがる一貫性が強いことが観察された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is an effort to complement the contributions made by researchers
working toward the inclusion of non-English languages in natural language
processing studies. Two novel Hindi language resources have been created and
released for public consumption. The first resource is a corpus consisting of
nearly thousand pre-processed fictional and nonfictional texts spanning over
hundred years. The second resource is an exhaustive list of stop lemmas created
from 12 corpora across multiple domains, consisting of over 13 million words,
from which more than 200,000 lemmas were generated, and 11 publicly available
stop word lists comprising over 1000 words, from which nearly 400 unique lemmas
were generated. This research lays emphasis on the use of stop lemmas instead
of stop words owing to the presence of various, but not all morphological forms
of a word in stop word lists, as opposed to the presence of only the root form
of the word, from which variations could be derived if required. It was also
observed that stop lemmas were more consistent across multiple sources as
compared to stop words. In order to generate a stop lemma list, the parts of
speech of the lemmas were investigated but rejected as it was found that there
was no significant correlation between the rank of a word in the frequency list
and its part of speech. The stop lemma list was assessed using a comparative
method. A formal evaluation method is suggested as future work arising from
this study.
- Abstract(参考訳): 本稿では,自然言語処理研究における非英語言語の導入に向けた研究者の貢献を補完する試みである。
2つの新しいヒンディー語リソースが作成され、一般公開されている。
最初の資料は、百年以上にわたる1000近い前処理されたフィクションとノンフィクションのテキストからなるコーパスである。
第2のリソースは、複数のドメインにまたがる12のコーパスから作成された停止補題の完全なリストで、1300万以上の単語から成り、20万以上の補題が生成され、1000以上の単語を含む11の公開可能な停止補題リストが400以上のユニークな補題が生成される。
本研究は,単語の根形のみの存在に対して,単語のすべての形態的形態が,必要であれば変化が引き起こされるような単語の根形のみの存在とは対照的に,停止語の存在によって,停止語の代わりに停止語を用いることを強調した。
また、停止語に比べ、停止語は複数のソースにまたがる一貫性が強いことが観察された。
停止補題リストを生成するために, 補題の音声部分について検討を行ったが, 周波数リスト中の単語のランクと発話部分との有意な相関が認められず, 否定された。
停止補題リストは比較手法を用いて評価した。
本研究は,今後の研究として,形式的評価手法を提案する。
関連論文リスト
- Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla
Lemmatizer [3.1742013359102175]
本稿では, 文法化のための言語規則を提案し, 辞書と組み合わせて, バングラの補題を設計する。
本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。
補綴器は、手動で注釈付けされたテストデータセットに対して、トレーニングによってテストすると96.36%の精度を達成する。
論文 参考訳(メタデータ) (2023-11-06T13:02:07Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Accuracy of the Uzbek stop words detection: a case study on "School
corpus" [0.0]
本稿では,自動生成を目的とした停止語リストの品質評価手法を提案する。
この手法はウズベク語の停止語のリストを自動生成してテストした。
論文 参考訳(メタデータ) (2022-09-15T05:14:31Z) - Deep Lexical Hypothesis: Identifying personality structure in natural
language [0.30458514384586394]
言語モデルから形容詞類似性を抽出する手法を提案する。
この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。
特に、神経症と開放性は弱く、矛盾なく回復するだけである。
論文 参考訳(メタデータ) (2022-03-04T02:06:10Z) - Bangla Natural Language Processing: A Comprehensive Review of Classical,
Machine Learning, and Deep Learning Based Methods [3.441093402715499]
バングラ語は世界で7番目に話される言語であり、2億6500万人の母国語話者と非母国語話者がいる。
英語は、オンラインリソース、技術知識、ジャーナル、ドキュメントの主要な言語である。
オンラインおよび技術分野において、Bangla言語の使用を容易にするため、多くの取り組みが進行中である。
論文 参考訳(メタデータ) (2021-05-31T10:58:58Z) - Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。
何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文 参考訳(メタデータ) (2021-02-03T18:19:16Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。