論文の概要: PARSI: Persian Authorship Recognition via Stylometric Integration
- arxiv url: http://arxiv.org/abs/2506.21840v1
- Date: Fri, 27 Jun 2025 01:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.042814
- Title: PARSI: Persian Authorship Recognition via Stylometric Integration
- Title(参考訳): PARSI: スティロメトリ統合によるペルシアの権威認識
- Authors: Kourosh Shahnazari, Mohammadali Keshtparvar, Seyed Moein Ayyoubzadeh,
- Abstract要約: 我々は、67人の著名なペルシア人詩人の著者を決定するために、多入力のニューラル・フレームワークを使用している。
我々は、厳密な前処理と著者検証により、ガンジョーのデジタルコレクションの647,653節の膨大なコーパスをコンパイルし、データを検証した。
本研究は、著者属性の改善を目的とした、深層表現形式とドメイン固有の機能の統合に焦点を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intricate linguistic, stylistic, and metrical aspects of Persian classical poetry pose a challenge for computational authorship attribution. In this work, we present a versatile framework to determine authorship among 67 prominent poets. We employ a multi-input neural framework consisting of a transformer-based language encoder complemented by features addressing the semantic, stylometric, and metrical dimensions of Persian poetry. Our feature set encompasses 100-dimensional Word2Vec embeddings, seven stylometric measures, and categorical encodings of poetic form and meter. We compiled a vast corpus of 647,653 verses of the Ganjoor digital collection, validating the data through strict preprocessing and author verification while preserving poem-level splitting to prevent overlap. This work employs verse-level classification and majority and weighted voting schemes in evaluation, revealing that weighted voting yields 71% accuracy. We further investigate threshold-based decision filtering, allowing the model to generate highly confident predictions, achieving 97% accuracy at a 0.9 threshold, though at lower coverage. Our work focuses on the integration of deep representational forms with domain-specific features for improved authorship attribution. The results illustrate the potential of our approach for automated classification and the contribution to stylistic analysis, authorship disputes, and general computational literature research. This research will facilitate further research on multilingual author attribution, style shift, and generative modeling of Persian poetry.
- Abstract(参考訳): ペルシア古典詩の複雑な言語的、様式的、計量的な側面は、計算的な著者の帰属に挑戦している。
本論では,67名の著名な詩人のうち,著者を決定するための多彩な枠組みを提示する。
我々は,ペルシャ詩のセマンティックス,テクトメトリックス,計量次元に対処する特徴を補足した,トランスフォーマーベースの言語エンコーダからなる多入力ニューラルフレームワークを採用している。
特徴セットは100次元のWord2Vec埋め込み,7つの幾何学的尺度,詩形とメーターの分類的エンコーディングを含む。
我々は、厳格な前処理と著者検証を通じてデータの検証を行い、重複を防ぐために詩レベルの分割を保ちながら、広義のデジタルコレクションの674,653節の膨大なコーパスを編纂した。
この研究は、評価に横レベルの分類と多数決と重み付き投票方式を採用し、重み付き投票が71%の正確性をもたらすことを示した。
さらに、しきい値に基づく決定フィルタリングについて検討し、モデルが精度の高い予測を生成できるようにし、0.9しきい値で97%の精度を達成できるが、カバー範囲は低い。
本研究は、著者属性の改善を目的とした、深層表現形式とドメイン固有の機能の統合に焦点を当てる。
その結果, 自動分類へのアプローチの可能性と, 文体分析, 著者論争, 一般計算文献研究への貢献が示唆された。
この研究は、多言語作家の帰属、スタイルシフト、ペルシャ詩の生成的モデリングに関するさらなる研究を促進する。
関連論文リスト
- NAZM: Network Analysis of Zonal Metrics in Persian Poetic Tradition [0.0]
この研究は、古典ペルシア詩人の影響力のダイナミクスをシミュレートする計算モデルを定式化した。
我々は、各詩人のコーパスを分類するために、意味的、語彙的、スタイリスティック、主題的、計量的特徴を描き出す。
類型的洞察を得るためには,Louvainコミュニティ検出アルゴリズムを用いて,スタイルとテーマのコヒーレンスを共有する詩人のクラスタを分離する。
論文 参考訳(メタデータ) (2025-05-12T20:39:53Z) - Author-Specific Linguistic Patterns Unveiled: A Deep Learning Study on Word Class Distributions [0.0]
本研究では,POSタグ付けとBigram解析を用いた著者固有の単語クラス分布について検討した。
深層ニューラルネットワークを利用して、POSタグベクトルと、それらの作品から派生したビッグラム周波数行列に基づいて、文学作家を分類する。
論文 参考訳(メタデータ) (2025-01-17T09:43:49Z) - AraPoemBERT: A Pretrained Language Model for Arabic Poetry Analysis [0.0]
AraPoemBERTはアラビア語の詩文に特化して訓練されたアラビア語モデルである。
AraPoemBERTは、詩のジェンダー分類と詩のサブメーター分類という3つの新しいタスクのうちの2つにおいて、前例のない精度を達成した。
この研究で使用されるデータセットには、オンラインソースから収集された2億9900万の詩が含まれている。
論文 参考訳(メタデータ) (2024-03-19T02:59:58Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in
Poetry Generation [58.36105306993046]
制御可能なテキスト生成は自然言語生成(NLG)において困難かつ有意義な分野である
本稿では,ソネット生成のための拡散モデルと中国語のSongCi詩の創始について述べる。
本モデルでは,人的評価だけでなく,意味的,計量的,総合的な性能の自動評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2023-06-14T11:57:31Z) - Huruf: An Application for Arabic Handwritten Character Recognition Using
Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。
提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文 参考訳(メタデータ) (2022-12-16T17:39:32Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach [0.0]
この研究は、ペルシャのユーザー生成テキストコンテンツがもたらすハードルに対処するために機械学習ベースのアプローチを適用します。
提示されたアプローチは、ペルシア語の感情分析を行うために機械翻訳データセットを使用する。
実験の結果は、これまでの試みとは対照的に、有望な最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-01-20T11:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。