論文の概要: Stemming -- The Evolution and Current State with a Focus on Bangla
- arxiv url: http://arxiv.org/abs/2508.15711v1
- Date: Thu, 21 Aug 2025 16:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.411975
- Title: Stemming -- The Evolution and Current State with a Focus on Bangla
- Title(参考訳): ステミング-バングラに焦点をあてた進化と現状
- Authors: Abhijit Paul, Mashiat Amin Farin, Sharif Md. Abdullah, Ahmedul Kabir, Zarif Masud, Shebuti Rayana,
- Abstract要約: 世界で7番目に広く話されている言語であるBanglaは、限られたリソースと注釈付きデータセットの欠如により、デジタルの低表現に直面している。
本稿では,形態的変異を効果的に扱うことの重要性を強調し,造形アプローチの包括的調査を行う。
この論文は、堅牢なバングラ・スリーマーを提唱し、言語分析と処理を強化するためにこの分野の研究を継続することで締めくくっている。
- 参考スコア(独自算出の注目度): 0.02199065293049185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bangla, the seventh most widely spoken language worldwide with 300 million native speakers, faces digital under-representation due to limited resources and lack of annotated datasets. Stemming, a critical preprocessing step in language analysis, is essential for low-resource, highly-inflectional languages like Bangla, because it can reduce the complexity of algorithms and models by significantly reducing the number of words the algorithm needs to consider. This paper conducts a comprehensive survey of stemming approaches, emphasizing the importance of handling morphological variants effectively. While exploring the landscape of Bangla stemming, it becomes evident that there is a significant gap in the existing literature. The paper highlights the discontinuity from previous research and the scarcity of accessible implementations for replication. Furthermore, it critiques the evaluation methodologies, stressing the need for more relevant metrics. In the context of Bangla's rich morphology and diverse dialects, the paper acknowledges the challenges it poses. To address these challenges, the paper suggests directions for Bangla stemmer development. It concludes by advocating for robust Bangla stemmers and continued research in the field to enhance language analysis and processing.
- Abstract(参考訳): 3億人のネイティブスピーカーを持つ世界で7番目に広く話されている言語であるBanglaは、限られたリソースと注釈付きデータセットの欠如により、デジタルの低表現に直面している。
言語分析における重要な前処理ステップであるステミングは、アルゴリズムが考慮すべき単語数を著しく削減することで、アルゴリズムとモデルの複雑さを低減できるため、Banglaのような低リソースで高屈折率の言語には不可欠である。
本稿では,形態的変異を効果的に扱うことの重要性を強調し,造形アプローチの包括的調査を行う。
バングラの景観を探求する一方で、既存の文献には大きなギャップがあることが明らかになっている。
本稿は, 従来の研究からの不連続性と, 複製のための実装が不足していることを強調する。
さらに、評価方法論を批判し、より関連するメトリクスの必要性を強調します。
バングラの豊富な形態学と多様な方言の文脈において、この論文はそれがもたらす課題を認識している。
これらの課題に対処するため、本論文はバングラステムマー開発に向けた方向性を提案する。
この論文は、堅牢なバングラ・スリーマーを提唱し、言語分析と処理を強化するためにこの分野の研究を継続することで締めくくっている。
関連論文リスト
- BOISHOMMO: Holistic Approach for Bangla Hate Speech [0.0]
包括的なデータセットは、Banglaのような制約のあるリソース言語の主な問題である。
BOISHOMMOは、2000以上の注釈付き例とともに、バングラにおけるヘイトスピーチの微妙な理解を提供している。
論文 参考訳(メタデータ) (2025-04-11T10:14:40Z) - Summarizing Speech: A Comprehensive Survey [76.13011304983458]
音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。
本調査では,要約手法の質を評価する上で重要な,既存のデータセットと評価プロトコルについて検討する。
論文 参考訳(メタデータ) (2025-04-10T17:50:53Z) - Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Robust Sentiment Analysis for Low Resource languages Using Data
Augmentation Approaches: A Case Study in Marathi [0.9553673944187253]
感情分析は、テキストデータに表される感情を理解する上で重要な役割を果たす。
低リソース言語における感情分析の研究努力には大きなギャップがある。
本稿では,低リソースのIndic言語であるMarathiに対するデータ拡張アプローチについて概説する。
論文 参考訳(メタデータ) (2023-10-01T17:09:31Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer
with Fine-tuning Slow and Fast [50.19681990847589]
既存の研究では、1つの(ソース)言語で微調整された多言語事前学習言語モデルが、非ソース言語の下流タスクでもうまく機能していることが示されている。
本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。
論文 参考訳(メタデータ) (2023-05-19T06:04:21Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - Bangla Natural Language Processing: A Comprehensive Review of Classical,
Machine Learning, and Deep Learning Based Methods [3.441093402715499]
バングラ語は世界で7番目に話される言語であり、2億6500万人の母国語話者と非母国語話者がいる。
英語は、オンラインリソース、技術知識、ジャーナル、ドキュメントの主要な言語である。
オンラインおよび技術分野において、Bangla言語の使用を容易にするため、多くの取り組みが進行中である。
論文 参考訳(メタデータ) (2021-05-31T10:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。