論文の概要: Lexical and Statistical Analysis of Bangla Newspaper and Literature: A Corpus-Driven Study on Diversity, Readability, and NLP Adaptation
- arxiv url: http://arxiv.org/abs/2601.06041v1
- Date: Mon, 15 Dec 2025 19:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.579638
- Title: Lexical and Statistical Analysis of Bangla Newspaper and Literature: A Corpus-Driven Study on Diversity, Readability, and NLP Adaptation
- Title(参考訳): バングラ紙と文学の語彙的・統計的分析:多様性・可読性・NLP適応に関するコーパス駆動研究
- Authors: Pramit Bhattacharyya, Arnab Bhattacharya,
- Abstract要約: バカスパティとインディクトコルプはバングラにとって最も広範な文学と新聞のみのコーパスである。
本稿では,タイプトケン比(TTR),ハファックス・レゴメナ比(HLR),ビグラムの多様性,平均音節と単語長,Zipfs法則の遵守など,主要な言語特性について検討する。
文献コーパスは新聞コーパスよりも難易度が高いことが明らかとなった。
- 参考スコア(独自算出の注目度): 10.569564671457206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a comprehensive corpus-driven analysis of Bangla literary and newspaper texts to investigate their lexical diversity, structural complexity and readability. We undertook Vacaspati and IndicCorp, which are the most extensive literature and newspaper-only corpora for Bangla. We examine key linguistic properties, including the type-token ratio (TTR), hapax legomena ratio (HLR), Bigram diversity, average syllable and word lengths, and adherence to Zipfs Law, for both newspaper (IndicCorp) and literary corpora (Vacaspati).For all the features, such as Bigram Diversity and HLR, despite its smaller size, the literary corpus exhibits significantly higher lexical richness and structural variation. Additionally, we tried to understand the diversity of corpora by building n-gram models and measuring perplexity. Our findings reveal that literary corpora have higher perplexity than newspaper corpora, even for similar sentence sizes. This trend can also be observed for the English newspaper and literature corpus, indicating its generalizability. We also examined how the performance of models on downstream tasks is influenced by the inclusion of literary data alongside newspaper data. Our findings suggest that integrating literary data with newspapers improves the performance of models on various downstream tasks. We have also demonstrated that a literary corpus adheres more closely to global word distribution properties, such as Zipfs law, than a newspaper corpus or a merged corpus of both literary and newspaper texts. Literature corpora also have higher entropy and lower redundancy values compared to a newspaper corpus. We also further assess the readability using Flesch and Coleman-Liau indices, showing that literary texts are more complex.
- Abstract(参考訳): 本稿では,Bangla文文と新聞文の包括的コーパス駆動分析を行い,その語彙的多様性,構造的複雑性,可読性について検討する。
バカスパティとIndicCorpは、バングラにとって最も広範な文学と新聞のみのコーパスである。
新聞(IndicCorp)と文芸コーパス(Vacaspati)の両方において,タイプトケン比(TTR),ハファックスレゴメナ比(HLR),バイグラムの多様性,平均音節と単語長,Zipfs法への順守などの重要な言語特性について検討した。
Bigram DiversityやHLRなど、そのサイズが小さいにもかかわらず、文学的コーパスは語彙的豊かさと構造的変化が著しく高い。
さらに、n-gramモデルを構築し、パープレキシティを測定することにより、コーパスの多様性を理解することを試みた。
文献コーパスは新聞コーパスよりも難易度が高いことが明らかとなった。
この傾向は、イギリスの新聞や文学のコーパスでも見られ、その一般化可能性を示している。
また、下流タスクにおけるモデルの性能が、新聞データとともに文学データを含めることによってどう影響するかについても検討した。
文献データを新聞と統合することで,下流業務におけるモデルの性能が向上することが示唆された。
また、文献コーパスは、新聞コーパスや新聞テキストの融合コーパスよりも、Zipfs法のようなグローバルな単語配信特性に密着していることを示した。
文学コーパスは新聞コーパスよりもエントロピーが高く冗長性が低い。
さらにFleschとColeman-Liauの指標を用いて読みやすさを評価し,文体がより複雑であることを示す。
関連論文リスト
- DiscoSum: Discourse-aware News Summarization [79.4884227574627]
本稿では,談話構造を要約プロセスに統合するための新しいアプローチを提案する。
本稿では,ソーシャルメディアプラットフォーム間で,ニュース記事が複数回,異なる方法で要約される新しい要約データセットを提案する。
本研究では、要約構造を記述するための新しいニュース談話スキーマと、構造認識要約にビームサーチ技術を用いる新しいアルゴリズムであるディスコサムを開発する。
論文 参考訳(メタデータ) (2025-06-07T22:00:30Z) - Entropy and type-token ratio in gigaword corpora [0.0]
語彙の多様性はタイプトケン比とエントロピーで特徴づけられる。
英語,スペイン語,トルコ語の6つの大規模言語データセットにおける多様性指標について検討した。
与えられたコーパスと言語のテキストのエントロピーとタイプトケン比の実証的機能関係を明らかにした。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Metrical Tagging in the Wild: Building and Annotating Poetry Corpora
with Rhythmic Features [0.0]
英語とドイツ語に大規模な詩コーパスを提供し,コーパス駆動ニューラルモデルを訓練するためのコーパスを小型化した韻律的特徴をアノテートする。
音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-17T16:38:57Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - Comparative Computational Analysis of Global Structure in Canonical,
Non-Canonical and Non-Literary Texts [0.0]
3つのテキストタイプ(ノンリテラル、文学/カノニカル、文学/カノニカル)は、読者の美的反応の相関として構造設計の特徴に関して体系的な違いを示す。
大域構造の2つの側面、変動性、およびテキストに沿った長距離相関を反映する自己相似(フラクタル)パターンについて検討した。
その結果,3種類のテキストに対して,テキストの低レベル特性は高レベル特性よりも差別性が高いことがわかった。
論文 参考訳(メタデータ) (2020-08-25T09:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。