論文の概要: BARD10: A New Benchmark Reveals Significance of Bangla Stop-Words in Authorship Attribution
- arxiv url: http://arxiv.org/abs/2511.08085v1
- Date: Wed, 12 Nov 2025 01:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.635521
- Title: BARD10: A New Benchmark Reveals Significance of Bangla Stop-Words in Authorship Attribution
- Title(参考訳): BARD10: オーサシップ属性におけるBanglaストップワードの意義を新たなベンチマークで明らかに
- Authors: Abdullah Muhammad Moosa, Nusrat Sultana, Mahdi Muhammad Moosa, Md. Miraiz Hossain,
- Abstract要約: 本研究はバングラの著作者帰属に関する包括的調査を提示する。
古典的, 深層学習モデルにおける停止語除去の効果を分析し, バングラ語のスタイル的意義を明らかにする。
バングラのストップワードは必須のスタイリスティックな指標として機能し、微調整されたMLモデルは短文の制限下で有効であることが証明され、BARD10は形式文学と現代のウェブ対話を結びつける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This research presents a comprehensive investigation into Bangla authorship attribution, introducing a new balanced benchmark corpus BARD10 (Bangla Authorship Recognition Dataset of 10 authors) and systematically analyzing the impact of stop-word removal across classical and deep learning models to uncover the stylistic significance of Bangla stop-words. BARD10 is a curated corpus of Bangla blog and opinion prose from ten contemporary authors, alongside the methodical assessment of four representative classifiers: SVM (Support Vector Machine), Bangla BERT (Bidirectional Encoder Representations from Transformers), XGBoost, and a MLP (Multilayer Perception), utilizing uniform preprocessing on both BARD10 and the benchmark corpora BAAD16 (Bangla Authorship Attribution Dataset of 16 authors). In all datasets, the classical TF-IDF + SVM baseline outperformed, attaining a macro-F1 score of 0.997 on BAAD16 and 0.921 on BARD10, while Bangla BERT lagged by as much as five points. This study reveals that BARD10 authors are highly sensitive to stop-word pruning, while BAAD16 authors remain comparatively robust highlighting genre-dependent reliance on stop-word signatures. Error analysis revealed that high frequency components transmit authorial signatures that are diminished or reduced by transformer models. Three insights are identified: Bangla stop-words serve as essential stylistic indicators; finely calibrated ML models prove effective within short-text limitations; and BARD10 connects formal literature with contemporary web dialogue, offering a reproducible benchmark for future long-context or domain-adapted transformers.
- Abstract(参考訳): 本研究は,Banglaの著者帰属に関する包括的調査,新たなベンチマークコーパスBARD10(Bangla Authorship Recognition Dataset of 10 author)の導入,および古典的および深層学習モデルにおける停止語除去の影響を体系的に分析し,Banglaの停止語の構造的意義を明らかにする。
BARD10は、SVM(Support Vector Machine)、Bangla BERT(Bidirectional Encoder Representations from Transformers)、XGBoost(XGBoost)、MLP(Multilayer Perception)という、BARD10とベンチマークコーパスBAAD16(Bangla Authorship Attribution Dataset of 16 authors)の4つの代表的な分類器の方法論的評価とともに、10人の同時代の著者によるコーパスと意見の散布されたコーパスである。
すべてのデータセットにおいて、古典的なTF-IDF + SVMベースラインは、BAAD16で0.997点、BARD10で0.921点、Bangla BERTが最大5点までタグ付けされた。
この研究は、BARD10の著者がストップワードプルーニングに非常に敏感であることを明らかにし、BAAD16の著者はストップワードシグネチャへのジャンル依存的な依存を比較的強く強調している。
誤差解析により,高周波成分はトランスモデルにより減少または減少する権威的シグネチャを伝達することがわかった。
バングラのストップワードは必須のスタイリスティックな指標として機能し、微調整されたMLモデルはショートテキストの制限下で有効であることが証明され、BARD10は形式文学と現代のウェブ対話を結びつけ、将来の長文やドメイン適応トランスフォーマーの再現可能なベンチマークを提供する。
関連論文リスト
- Introducing A Bangla Sentence - Gloss Pair Dataset for Bangla Sign Language Translation and Research [0.4077787659104315]
そこで,Bangla-SGPについて紹介する。
我々のデータセットは1000の高品質なBangla文からなり、プロのシグナーによって手動でグロスシーケンスに注釈付けされる。
論文 参考訳(メタデータ) (2025-11-11T17:41:12Z) - Restoring Rhythm: Punctuation Restoration Using Transformer Models for Bangla, a Low-Resource Language [0.0]
分岐復元は、Banglaのような低リソース言語における自動音声認識タスクに不可欠である。
本研究では,変圧器を用いたモデル,具体的にはXLM-RoBERTa-largeを用いて,不動Banglaテキストの句読点を自動的に復元する方法について検討する。
我々の最高の性能モデルは、α = 0.20%の増進係数で訓練され、Newsテストセットで97.1%の精度を達成する。
その結果、参照とASRの書き起こしに対する強い一般化が示され、実世界のノイズの多いシナリオにおけるモデルの有効性が示される。
論文 参考訳(メタデータ) (2025-07-24T14:33:13Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。
OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-16T11:19:22Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Authorship Attribution in Bangla Literature (AABL) via Transfer Learning
using ULMFiT [0.6919386619690135]
著者属性(英: Authorship Attribution)とは、あるテキストの原作者を特定するために、テキストの適切な特徴づけを作成するタスクである。
英語、スペイン語、中国語など他の言語にも大きな進歩があったが、バングラはこの分野の包括的な研究を欠いている。
既存のシステムは、著者数が増えるとスケーラビリティが低下し、著者1人当たりのサンプル数が少なくなる。
論文 参考訳(メタデータ) (2024-03-08T18:42:59Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。