論文の概要: PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration
- arxiv url: http://arxiv.org/abs/2603.05314v1
- Date: Thu, 05 Mar 2026 15:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.307924
- Title: PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration
- Title(参考訳): PersianPunc: 大規模なデータセットとBERTベースのペルシャ句読点修復アプローチ
- Authors: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery,
- Abstract要約: 自動音声認識出力の可読性とダウンストリーム性を改善するためには,句読解回復が不可欠である。
ペルシャ語句読点復元のための高品質な1700万サンプルデータセットであるペルシャ語句読点(ペルシャ語句読点復元)を紹介した。
我々は,句読取復元をトークンレベルのシーケンスラベリングタスクとファインチューンParsBERTとして定式化し,高い性能を実現する。
- 参考スコア(独自算出の注目度): 3.763275651955603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Punctuation restoration is essential for improving the readability and downstream utility of automatic speech recognition (ASR) outputs, yet remains underexplored for Persian despite its importance. We introduce PersianPunc, a large-scale, high-quality dataset of 17 million samples for Persian punctuation restoration, constructed through systematic aggregation and filtering of existing textual resources. We formulate punctuation restoration as a token-level sequence labeling task and fine-tune ParsBERT to achieve strong performance. Through comparative evaluation, we demonstrate that while large language models can perform punctuation restoration, they suffer from critical limitations: over-correction tendencies that introduce undesired edits beyond punctuation insertion (particularly problematic for speech-to-text pipelines) and substantially higher computational requirements. Our lightweight BERT-based approach achieves a macro-averaged F1 score of 91.33% on our test set while maintaining efficiency suitable for real-time applications. We make our dataset (https://huggingface.co/datasets/MohammadJRanjbar/persian-punctuation-restoration) and model (https://huggingface.co/MohammadJRanjbar/parsbert-persian-punctuation) publicly available to facilitate future research in Persian NLP and provide a scalable framework applicable to other morphologically rich, low-resource languages.
- Abstract(参考訳): 触覚回復は、自動音声認識(ASR)出力の可読性と下流ユーティリティの改善に不可欠である。
我々は,ペルシャ語句読点復元のための大規模で高品質なデータセットであるペルシャ語句読点復元(ペルシャ語句読点復元)を導入し,既存のテキストリソースの体系的な集約とフィルタリングによって構築した。
我々は,句読取復元をトークンレベルのシーケンスラベリングタスクとファインチューンParsBERTとして定式化し,高い性能を実現する。
比較評価により,大規模言語モデルでは句読点復元が可能であるが,句読点挿入(特に音声からテキストへのパイプラインにおいて問題となる)以外に不要な編集を導入する過補正傾向や,かなり高い計算条件など,重大な制約が生じることが示された。
我々の軽量BERTベースのアプローチは、実時間アプリケーションに適した効率を維持しつつ、テストセット上でのマクロ平均F1スコア91.33%を達成する。
我々のデータセット (https://huggingface.co/datasets/MohammadJRanjbar/persian-punctuation-restoration) とモデル (https://huggingface.co/MohammadJRanjbar/parsbert-persian-punctuation) を公開し、ペルシアのNLPにおける今後の研究を促進するとともに、他の形態的にリッチで低リソースな言語に適用可能なスケーラブルなフレームワークを提供する。
関連論文リスト
- WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems [0.0]
本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。
我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。
その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-27T14:14:55Z) - Matina: A Large-Scale 73B Token Persian Text Corpus [1.396406461086233]
既存のペルシアのデータセットは通常小さく、内容の多様性に欠けており、主にウェブログとニュース記事で構成されている。
Matina corpusは72.9Bトークンからなる新しいペルシアのデータセットで、高いデータ品質を確保するために慎重に前処理され、重複している。
論文 参考訳(メタデータ) (2025-02-13T11:22:19Z) - Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance [9.624005980086707]
最先端の手法では、大量のデータに事前訓練されたモデルをラベル付きデータを使って微調整する自己教師ありトランスファーラーニングをデプロイする。
我々は,多言語微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:42:46Z) - Extending LLMs to New Languages: A Case Study of Llama and Persian Adaptation [36.92567530333872]
我々は,大言語モデル(LLM)に新しい言語,すなわちペルシア語を追加することを研究する。
我々は単言語ペルシャ語のデータの事前学習を含む多段階的アプローチを採用する。
生成タスクと分類タスクにおいて,各段階でのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-17T23:18:06Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。