Fugu-MT 論文翻訳(概要): Novel Language Resources for Hindi: An Aesthetics Text Corpus and a Comprehensive Stop Lemma List

論文の概要: Novel Language Resources for Hindi: An Aesthetics Text Corpus and a Comprehensive Stop Lemma List

arxiv url: http://arxiv.org/abs/2002.00171v1
Date: Sat, 1 Feb 2020 08:49:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-05 00:55:43.962885
Title: Novel Language Resources for Hindi: An Aesthetics Text Corpus and a Comprehensive Stop Lemma List
Title（参考訳）: ヒンディー語の新たな言語資源 : 審美的テキストコーパスと包括的停止補題リスト
Authors: Gayatri Venugopal-Wairagade, Jatinderkumar R. Saini, Dhanya Pramod
Abstract要約: 2つの新しいヒンディー語リソースが作成され、一般公開されている。この研究は、ストップワードの代わりにストップレムマを使うことに重点を置いている。また、停止語に比べ、停止語は複数のソースにまたがる一貫性が強いことが観察された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper is an effort to complement the contributions made by researchers working toward the inclusion of non-English languages in natural language processing studies. Two novel Hindi language resources have been created and released for public consumption. The first resource is a corpus consisting of nearly thousand pre-processed fictional and nonfictional texts spanning over hundred years. The second resource is an exhaustive list of stop lemmas created from 12 corpora across multiple domains, consisting of over 13 million words, from which more than 200,000 lemmas were generated, and 11 publicly available stop word lists comprising over 1000 words, from which nearly 400 unique lemmas were generated. This research lays emphasis on the use of stop lemmas instead of stop words owing to the presence of various, but not all morphological forms of a word in stop word lists, as opposed to the presence of only the root form of the word, from which variations could be derived if required. It was also observed that stop lemmas were more consistent across multiple sources as compared to stop words. In order to generate a stop lemma list, the parts of speech of the lemmas were investigated but rejected as it was found that there was no significant correlation between the rank of a word in the frequency list and its part of speech. The stop lemma list was assessed using a comparative method. A formal evaluation method is suggested as future work arising from this study.
Abstract（参考訳）: 本稿では,自然言語処理研究における非英語言語の導入に向けた研究者の貢献を補完する試みである。 2つの新しいヒンディー語リソースが作成され、一般公開されている。最初の資料は、百年以上にわたる1000近い前処理されたフィクションとノンフィクションのテキストからなるコーパスである。第2のリソースは、複数のドメインにまたがる12のコーパスから作成された停止補題の完全なリストで、1300万以上の単語から成り、20万以上の補題が生成され、1000以上の単語を含む11の公開可能な停止補題リストが400以上のユニークな補題が生成される。本研究は,単語の根形のみの存在に対して,単語のすべての形態的形態が,必要であれば変化が引き起こされるような単語の根形のみの存在とは対照的に,停止語の存在によって,停止語の代わりに停止語を用いることを強調した。また、停止語に比べ、停止語は複数のソースにまたがる一貫性が強いことが観察された。停止補題リストを生成するために, 補題の音声部分について検討を行ったが, 周波数リスト中の単語のランクと発話部分との有意な相関が認められず, 否定された。停止補題リストは比較手法を用いて評価した。本研究は,今後の研究として,形式的評価手法を提案する。

関連論文リスト

Unstable Grounds for Beautiful Trees? Testing the Robustness of Concept Translations in the Compilation of Multilingual Wordlists [1.0136215038345011]
9つの異なる言語族をカバーする10組のデータセットから独立にコンパイルされた単語リストにおける概念翻訳のバリエーションについて検討した。平均すると、すべての翻訳の83%のみが同じ語形を生成するのに対し、音素の書き起こしにおける同一の形式は全てのケースの23%にしか見つからない。
論文参考訳（メタデータ） (2025-03-01T12:16:45Z)
Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文参考訳（メタデータ） (2024-04-24T21:48:43Z)
BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla Lemmatizer [3.1742013359102175]
本稿では, 文法化のための言語規則を提案し, 辞書と組み合わせて, バングラの補題を設計する。本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。補綴器は、手動で注釈付けされたテストデータセットに対して、トレーニングによってテストすると96.36%の精度を達成する。
論文参考訳（メタデータ） (2023-11-06T13:02:07Z)
DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文参考訳（メタデータ） (2022-10-13T13:04:16Z)
Accuracy of the Uzbek stop words detection: a case study on "School corpus" [0.0]
本稿では,自動生成を目的とした停止語リストの品質評価手法を提案する。この手法はウズベク語の停止語のリストを自動生成してテストした。
論文参考訳（メタデータ） (2022-09-15T05:14:31Z)
Deep Lexical Hypothesis: Identifying personality structure in natural language [0.30458514384586394]
言語モデルから形容詞類似性を抽出する手法を提案する。この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。特に、神経症と開放性は弱く、矛盾なく回復するだけである。
論文参考訳（メタデータ） (2022-03-04T02:06:10Z)
Bangla Natural Language Processing: A Comprehensive Review of Classical, Machine Learning, and Deep Learning Based Methods [3.441093402715499]
バングラ語は世界で7番目に話される言語であり、2億6500万人の母国語話者と非母国語話者がいる。英語は、オンラインリソース、技術知識、ジャーナル、ドキュメントの主要な言語である。オンラインおよび技術分野において、Bangla言語の使用を容易にするため、多くの取り組みが進行中である。
論文参考訳（メタデータ） (2021-05-31T10:58:58Z)
Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文参考訳（メタデータ） (2021-02-03T18:19:16Z)
Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文参考訳（メタデータ） (2020-10-05T17:19:10Z)
Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文参考訳（メタデータ） (2020-03-14T14:50:04Z)
A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文参考訳（メタデータ） (2019-04-04T02:03:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。