論文の概要: PARSI: Persian Authorship Recognition via Stylometric Integration
- arxiv url: http://arxiv.org/abs/2506.21840v1
- Date: Fri, 27 Jun 2025 01:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.042814
- Title: PARSI: Persian Authorship Recognition via Stylometric Integration
- Title(参考訳): PARSI: スティロメトリ統合によるペルシアの権威認識
- Authors: Kourosh Shahnazari, Mohammadali Keshtparvar, Seyed Moein Ayyoubzadeh,
- Abstract要約: 我々は、67人の著名なペルシア人詩人の著者を決定するために、多入力のニューラル・フレームワークを使用している。
我々は、厳密な前処理と著者検証により、ガンジョーのデジタルコレクションの647,653節の膨大なコーパスをコンパイルし、データを検証した。
本研究は、著者属性の改善を目的とした、深層表現形式とドメイン固有の機能の統合に焦点を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intricate linguistic, stylistic, and metrical aspects of Persian classical poetry pose a challenge for computational authorship attribution. In this work, we present a versatile framework to determine authorship among 67 prominent poets. We employ a multi-input neural framework consisting of a transformer-based language encoder complemented by features addressing the semantic, stylometric, and metrical dimensions of Persian poetry. Our feature set encompasses 100-dimensional Word2Vec embeddings, seven stylometric measures, and categorical encodings of poetic form and meter. We compiled a vast corpus of 647,653 verses of the Ganjoor digital collection, validating the data through strict preprocessing and author verification while preserving poem-level splitting to prevent overlap. This work employs verse-level classification and majority and weighted voting schemes in evaluation, revealing that weighted voting yields 71% accuracy. We further investigate threshold-based decision filtering, allowing the model to generate highly confident predictions, achieving 97% accuracy at a 0.9 threshold, though at lower coverage. Our work focuses on the integration of deep representational forms with domain-specific features for improved authorship attribution. The results illustrate the potential of our approach for automated classification and the contribution to stylistic analysis, authorship disputes, and general computational literature research. This research will facilitate further research on multilingual author attribution, style shift, and generative modeling of Persian poetry.
- Abstract(参考訳): ペルシア古典詩の複雑な言語的、様式的、計量的な側面は、計算的な著者の帰属に挑戦している。
本論では,67名の著名な詩人のうち,著者を決定するための多彩な枠組みを提示する。
我々は,ペルシャ詩のセマンティックス,テクトメトリックス,計量次元に対処する特徴を補足した,トランスフォーマーベースの言語エンコーダからなる多入力ニューラルフレームワークを採用している。
特徴セットは100次元のWord2Vec埋め込み,7つの幾何学的尺度,詩形とメーターの分類的エンコーディングを含む。
我々は、厳格な前処理と著者検証を通じてデータの検証を行い、重複を防ぐために詩レベルの分割を保ちながら、広義のデジタルコレクションの674,653節の膨大なコーパスを編纂した。
この研究は、評価に横レベルの分類と多数決と重み付き投票方式を採用し、重み付き投票が71%の正確性をもたらすことを示した。
さらに、しきい値に基づく決定フィルタリングについて検討し、モデルが精度の高い予測を生成できるようにし、0.9しきい値で97%の精度を達成できるが、カバー範囲は低い。
本研究は、著者属性の改善を目的とした、深層表現形式とドメイン固有の機能の統合に焦点を当てる。
その結果, 自動分類へのアプローチの可能性と, 文体分析, 著者論争, 一般計算文献研究への貢献が示唆された。
この研究は、多言語作家の帰属、スタイルシフト、ペルシャ詩の生成的モデリングに関するさらなる研究を促進する。
関連論文リスト
- NAZM: Network Analysis of Zonal Metrics in Persian Poetic Tradition [0.0]
この研究は、古典ペルシア詩人の影響力のダイナミクスをシミュレートする計算モデルを定式化した。
我々は、各詩人のコーパスを分類するために、意味的、語彙的、スタイリスティック、主題的、計量的特徴を描き出す。
類型的洞察を得るためには,Louvainコミュニティ検出アルゴリズムを用いて,スタイルとテーマのコヒーレンスを共有する詩人のクラスタを分離する。
論文 参考訳(メタデータ) (2025-05-12T20:39:53Z) - AraPoemBERT: A Pretrained Language Model for Arabic Poetry Analysis [0.0]
AraPoemBERTはアラビア語の詩文に特化して訓練されたアラビア語モデルである。
AraPoemBERTは、詩のジェンダー分類と詩のサブメーター分類という3つの新しいタスクのうちの2つにおいて、前例のない精度を達成した。
この研究で使用されるデータセットには、オンラインソースから収集された2億9900万の詩が含まれている。
論文 参考訳(メタデータ) (2024-03-19T02:59:58Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Huruf: An Application for Arabic Handwritten Character Recognition Using
Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。
提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文 参考訳(メタデータ) (2022-12-16T17:39:32Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。