論文の概要: A Systematic Study and Analysis of Bengali Folklore with Natural
Language Processing Systems
- arxiv url: http://arxiv.org/abs/2203.06607v1
- Date: Sun, 13 Mar 2022 09:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 09:07:21.326620
- Title: A Systematic Study and Analysis of Bengali Folklore with Natural
Language Processing Systems
- Title(参考訳): 自然言語処理システムを用いたベンガル伝承の体系的研究と分析
- Authors: Mustain Billah, Md. Mynoddin, Mostafijur Rahman Akhond, Md. Nasim
Adnan, Syed Md. Galib, Rizwanur Rahad, M Nurujjaman Khan
- Abstract要約: 本研究の目的は、より洗練された計算方法で、私たちの豊かな伝承をより誰でも理解できるようにすることである。
提案するモデルはベンガルの民俗学に特化することであり、技術的にはベンガルの民俗学を研究・分析するためのベンガルの自然言語処理への第一歩となる。
- 参考スコア(独自算出の注目度): 1.339230763466954
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Folklore, a solid branch of folk literature, is the hallmark of any nation or
any society. Such as oral tradition; as proverbs or jokes, it also includes
material culture as well as traditional folk beliefs, and various customs.
Bengali folklore is as rich in-depth as it is amazing. Nevertheless, in the
womb of time, it is determined to sustain its existence. Therefore, our aim in
this study is to make our rich folklore more comprehensible to everyone in a
more sophisticated computational way. Some studies concluded various aspects of
the Bengali language with NLP. Our proposed model is to be specific for Bengali
folklore. Technically, it will be the first step towards Bengali natural
language processing for studying and analyzing the folklore of Bengal.
- Abstract(参考訳): フォークロア(Folklore)は、民族文学の一分野であり、あらゆる国や社会の目印である。
口承の伝統など、証明やジョークとして、伝統的な民間信仰や様々な習慣の材料文化も含んでいる。
ベンガルの民間伝承は驚くべきほど豊かである。
それにもかかわらず、その存在を継続することが決定されている。
そこで本研究の目的は,より高度な計算方法で,我々の豊かな伝承をより理解しやすいものにすることである。
ベンガル語の様々な側面をNLPで締めくくった研究もある。
提案モデルはベンガルの民俗伝承に特有なものである。
技術的には、ベンガルの民俗学を研究し分析するためのベンガル自然言語処理への第一歩となる。
関連論文リスト
- Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Analyzing Folktales of Different Regions Using Topic Modeling and
Clustering [2.2559617939136505]
本稿では,トピックモデリングとクラスタリングという2つの主要な自然言語処理技術を用いて,民俗学のパターンを見つける。
民俗学の共通する傾向として,家族,食生活,伝統的なジェンダーの役割,神話的人物,動物などがあげられる。
我々の結果は、世界中の文化における特定の要素の出現を実証している。
論文 参考訳(メタデータ) (2022-06-09T02:04:18Z) - How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language [91.79339725967073]
世界で話されている言語の43%以上が危険にさらされている。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
私たちは、深刻な絶滅危惧言語であるチェロキーをケーススタディとして捉えています。
論文 参考訳(メタデータ) (2022-04-25T18:25:57Z) - Plagiarism Detection in the Bengali Language: A Text Similarity-Based
Approach [0.866842899233181]
ベンガル語はバングラデシュで最も広く話されている言語であり、インドで2番目に話されている言語である。
インド国立デジタル図書館からベンガル文学の本を収集し,そのテキストを包括的に抽出し,コーパスを構築した。
OCRを用いたテキスト抽出では,72.10 %~79.89 %の平均精度が得られた。
我々はエンドユーザー向けのWebアプリケーションを構築し、ベンガル文字のプラジャリズム検出に成功しました。
論文 参考訳(メタデータ) (2022-03-25T03:11:00Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories [2.3424047967193826]
アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。
本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
論文 参考訳(メタデータ) (2020-10-06T22:33:58Z) - Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New
Datasets for Bengali-English Machine Translation [6.2418269277908065]
ベンガル語は世界で7番目に広く話されている言語であるにもかかわらず、資源不足のため機械翻訳文学にはあまり注目されていない。
我々はBengali用にカスタマイズされた文セグメンタを構築し、低リソース環境における並列コーパス生成のための2つの新しい手法を提案する。
セグメンタと2つの手法を組み合わせることで、275万文対からなる高品質なベンガル英語並列コーパスをコンパイルする。
論文 参考訳(メタデータ) (2020-09-20T06:06:27Z) - A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization [70.14668193220528]
2019年8月、カーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集結させようとした。
本報告では,ワークショップの結果を報告するとともに,9言語を対象とした様々な技術が開発され,実装されている。
論文 参考訳(メタデータ) (2020-04-27T22:55:55Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z) - A Continuous Space Neural Language Model for Bengali Language [0.4799822253865053]
本稿では, 連続空間ニューラル言語モデル, より具体的にはASGD重量減少型LSTM言語モデル, およびベンガル語で効率的に学習する手法を提案する。
提案したアーキテクチャは、ベンガルの保持されたデータセットにおいて、推論の難易度を51.2まで低くすることで、それよりも優れている。
論文 参考訳(メタデータ) (2020-01-11T14:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。