論文の概要: Plagiarism Detection in the Bengali Language: A Text Similarity-Based
Approach
- arxiv url: http://arxiv.org/abs/2203.13430v1
- Date: Fri, 25 Mar 2022 03:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 22:35:35.292069
- Title: Plagiarism Detection in the Bengali Language: A Text Similarity-Based
Approach
- Title(参考訳): ベンガル語におけるプラジャリズム検出:テキスト類似性に基づくアプローチ
- Authors: Satyajit Ghosh, Aniruddha Ghosh, Bittaswer Ghosh, and Abhishek Roy
- Abstract要約: ベンガル語はバングラデシュで最も広く話されている言語であり、インドで2番目に話されている言語である。
インド国立デジタル図書館からベンガル文学の本を収集し,そのテキストを包括的に抽出し,コーパスを構築した。
OCRを用いたテキスト抽出では,72.10 %~79.89 %の平均精度が得られた。
我々はエンドユーザー向けのWebアプリケーションを構築し、ベンガル文字のプラジャリズム検出に成功しました。
- 参考スコア(独自算出の注目度): 0.866842899233181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plagiarism means taking another person's work and not giving any credit to
them for it. Plagiarism is one of the most serious problems in academia and
among researchers. Even though there are multiple tools available to detect
plagiarism in a document but most of them are domain-specific and designed to
work in English texts, but plagiarism is not limited to a single language only.
Bengali is the most widely spoken language of Bangladesh and the second most
spoken language in India with 300 million native speakers and 37 million
second-language speakers. Plagiarism detection requires a large corpus for
comparison. Bengali Literature has a history of 1300 years. Hence most Bengali
Literature books are not yet digitalized properly. As there was no such corpus
present for our purpose so we have collected Bengali Literature books from the
National Digital Library of India and with a comprehensive methodology
extracted texts from it and constructed our corpus. Our experimental results
find out average accuracy between 72.10 % - 79.89 % in text extraction using
OCR. Levenshtein Distance algorithm is used for determining Plagiarism. We have
built a web application for end-user and successfully tested it for Plagiarism
detection in Bengali texts. In future, we aim to construct a corpus with more
books for more accurate detection.
- Abstract(参考訳): 盗作とは、他人の仕事を引き受け、それに対する信用を与えないことを意味する。
プラジアリズムは、学界や研究者の間で最も深刻な問題の一つである。
文書に盗作を検知するツールが複数存在するが、そのほとんどはドメイン固有で、英語のテキストで動作するように設計されているが、盗作は単一の言語のみに限定されない。
ベンガル語はバングラデシュで最も広く話されている言語であり、インドでは3億人の母語話者と3700万人の第二言語話者がいる。
プラジャリズム検出は比較のために大きなコーパスを必要とする。
ベンガル語文学は1300年の歴史を持つ。
そのため、ほとんどのベンガル文学書はまだデジタル化されていない。
そこで我々は,インド国立デジタル図書館からベンガル文学書を収集し,その資料を総合的に抽出し,私たちのコーパスを構築した。
OCRを用いたテキスト抽出では,72.10 %~79.89 %の平均精度が得られた。
レベンシュテイン距離アルゴリズムはプラギアリズムを決定するために用いられる。
我々はエンドユーザー向けのWebアプリケーションを構築し、ベンガル文字のプラジャリズム検出に成功しました。
将来的には、より正確な検出を行うために、より多くの書籍でコーパスを構築することを目指している。
関連論文リスト
- Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Vacaspati: A Diverse Corpus of Bangla Literature [4.555256739812733]
バングラ文学の多種多様なコーパスであるヴァカスパティを造った。
1100万以上の文と1億1500万の単語が含まれている。
我々はまた、VacspatiのFastTextを使った単語埋め込みモデルVac-FTを構築し、コーパスを使用してElectraモデルVac-BERTをトレーニングした。
論文 参考訳(メタデータ) (2023-07-11T07:32:12Z) - Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals [69.76097138157816]
確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
論文 参考訳(メタデータ) (2021-07-12T20:47:08Z) - Simple or Complex? Learning to Predict Readability of Bengali Texts [6.860272388539321]
ベンガル語で書かれたテキストを解析できる可読性解析ツールを提案する。
2億3000万人のネイティブスピーカーを持つ世界で7番目に話されている言語であるにもかかわらず、ベンガル語は自然言語処理の基本的なリソースが不足している。
論文 参考訳(メタデータ) (2020-12-09T01:41:35Z) - Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New
Datasets for Bengali-English Machine Translation [6.2418269277908065]
ベンガル語は世界で7番目に広く話されている言語であるにもかかわらず、資源不足のため機械翻訳文学にはあまり注目されていない。
我々はBengali用にカスタマイズされた文セグメンタを構築し、低リソース環境における並列コーパス生成のための2つの新しい手法を提案する。
セグメンタと2つの手法を組み合わせることで、275万文対からなる高品質なベンガル英語並列コーパスをコンパイルする。
論文 参考訳(メタデータ) (2020-09-20T06:06:27Z) - Writer Identification Using Microblogging Texts for Social Media
Forensics [53.180678723280145]
私たちは、文学的分析に広く使われている人気のあるスタイル的特徴と、URL、ハッシュタグ、返信、引用などの特定のTwitter機能を評価します。
我々は、様々なサイズの著者集合と、著者毎のトレーニング/テストテキストの量をテストする。
論文 参考訳(メタデータ) (2020-07-31T00:23:18Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - Automatic Extraction of Bengali Root Verbs using Paninian Grammar [0.0]
提案システムは,動詞の時制,人格,形態的インフレクションに基づいて,その根形を見つけるために開発された。
出力の精度は98%に達し、言語専門家によって検証されている。
論文 参考訳(メタデータ) (2020-03-31T20:22:10Z) - Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文 参考訳(メタデータ) (2020-03-24T19:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。