論文の概要: ParsiPy: NLP Toolkit for Historical Persian Texts in Python
- arxiv url: http://arxiv.org/abs/2503.17810v1
- Date: Sat, 22 Mar 2025 16:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:30.562623
- Title: ParsiPy: NLP Toolkit for Historical Persian Texts in Python
- Title(参考訳): ParsiPy: Pythonの歴史的ペルシャテキストのためのNLPツールキット
- Authors: Farhan Farsi, Parnian Fazel, Sepand Haghighi, Sadra Sabouri, Farzaneh Goshtasb, Nadia Hajipour, Ehsaneddin Asgari, Hossein Sameti,
- Abstract要約: この研究は、音声の書き起こしを処理し、古代のテキストを分析するためのNLPツールキットであるParsiPyを導入している。
ParsiPyは、トークン化、補題化、音声タグ付け、音素から音素への変換、単語の埋め込みのためのモジュールを提供する。
- 参考スコア(独自算出の注目度): 1.637832760977605
- License:
- Abstract: The study of historical languages presents unique challenges due to their complex orthographic systems, fragmentary textual evidence, and the absence of standardized digital representations of text in those languages. Tackling these challenges needs special NLP digital tools to handle phonetic transcriptions and analyze ancient texts. This work introduces ParsiPy, an NLP toolkit designed to facilitate the analysis of historical Persian languages by offering modules for tokenization, lemmatization, part-of-speech tagging, phoneme-to-transliteration conversion, and word embedding. We demonstrate the utility of our toolkit through the processing of Parsig (Middle Persian) texts, highlighting its potential for expanding computational methods in the study of historical languages. Through this work, we contribute to computational philology, offering tools that can be adapted for the broader study of ancient texts and their digital preservation.
- Abstract(参考訳): 歴史的言語の研究は、それらの複雑な正書法体系、断片的なテキスト証拠、およびそれらの言語におけるテキストの標準化されたデジタル表現の欠如により、固有の課題を呈している。
これらの課題に対処するには、音声の書き起こしを処理し、古代のテキストを分析するための特別なNLPデジタルツールが必要である。
トークン化, 補題化, 音声タグ付け, 音素から音素への変換, 単語の埋め込みなどのモジュールを提供することにより, 歴史的ペルシャ語の分析を容易にするために設計されたNLPツールキットであるParsiPyを紹介する。
我々は,Parsig (Middle Persian)テキストの処理によるツールキットの有用性を実証し,歴史的言語研究における計算手法の拡張の可能性を強調した。
本研究を通じて計算文献学に貢献し、古代の文献のより広範な研究やそのデジタル保存に適応できるツールを提供する。
関連論文リスト
- Adapting Multilingual Embedding Models to Historical Luxembourgish [5.474797258314828]
本研究では,歴史的ルクセンブルク語における言語間セマンティック検索のための多言語埋め込みについて検討した。
文のセグメンテーションと翻訳にはGPT-4oを使用し、言語ペア毎に20,000の並列トレーニング文を生成する。
コントラスト学習や知識蒸留により,複数の多言語埋め込みモデルを適応させ,全てのモデルの精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T20:35:29Z) - LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP [30.804518354947565]
記録データの大部分は、転写がないため、純粋に視覚的に持続する。
この問題は、NLPツールキットを古代のログ言語研究に応用しようとする研究者にとってボトルネックとなる。
我々は,古代のログ言語のNLP解析を可能にする最初のベンチマークであるLogogramNLPを紹介する。
論文 参考訳(メタデータ) (2024-08-08T17:58:06Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - textless-lib: a Library for Textless Spoken Language Processing [50.070693765984075]
我々はPyTorchベースのライブラリであるtextless-libを紹介した。
ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
論文 参考訳(メタデータ) (2022-02-15T12:39:42Z) - Strategies of Effective Digitization of Commentaries and
Sub-commentaries: Towards the Construction of Textual History [26.355399011710944]
我々は、K=a'sik=avrtti(KV)のテキストをサンプルテキストとして使用し、文献学者の助けを借りて、利用可能な注釈をデジタル化する。
本稿では,各論説と副論を機能単位に分割し,機能単位の背景にある方法論とモチベーションについて述べる。
論文 参考訳(メタデータ) (2022-01-05T16:43:43Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Latin writing styles analysis with Machine Learning: New approach to old
questions [0.0]
中世のテキストは、世代から世代までのコミュニケーション手段を用いて、心から学び、普及した。
ラテン語で書かれた文学の特定の構成を考慮に入れれば、特定の物語テキストの親しみやすい情報源の確率パターンを探索し、示すことができる。
論文 参考訳(メタデータ) (2021-09-01T20:21:45Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。