論文の概要: ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian
- arxiv url: http://arxiv.org/abs/2110.09086v1
- Date: Mon, 18 Oct 2021 08:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 04:22:52.601966
- Title: ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian
- Title(参考訳): ViraPart: ペルシアのASRおよびNLPタスクのためのテキストリファインメントフレームワーク
- Authors: Narges Farokhshad, Milad Molazadeh, Saman Jamalabbasi, Hamed Babaei
Giglou, Saeed Bibak
- Abstract要約: テキストの明確化にParsBERTを組み込んだViraPartフレームワークを提案する。
最終的に、提案されたZWNJ認識モデル、句読点復元モデル、ペルシャ・エザフ構成モデルは、それぞれ96.90%、92.13%、98.50%の平均的なF1マクロスコアを実行する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Persian language is an inflectional SOV language. This fact makes Persian
a more uncertain language. However, using techniques such as ZWNJ recognition,
punctuation restoration, and Persian Ezafe construction will lead us to a more
understandable and precise language. In most of the works in Persian, these
techniques are addressed individually. Despite that, we believe that for text
refinement in Persian, all of these tasks are necessary. In this work, we
proposed a ViraPart framework that uses embedded ParsBERT in its core for text
clarifications. First, used the BERT variant for Persian following by a
classifier layer for classification procedures. Next, we combined models
outputs to output cleartext. In the end, the proposed model for ZWNJ
recognition, punctuation restoration, and Persian Ezafe construction performs
the averaged F1 macro scores of 96.90\%, 92.13\%, and 98.50\%, respectively.
Experimental results show that our proposed approach is very effective in text
refinement for the Persian language.
- Abstract(参考訳): ペルシア語は屈折型SOV言語である。
この事実はペルシア語をより不確実な言語にする。
しかし、zwnj認識、句読点復元、ペルシャのezafe構築などの技術を使用することで、より理解しやすく正確な言語につながります。
ペルシアのほとんどの作品において、これらの技法は個別に扱われている。
それにもかかわらず、ペルシア語のテキストの洗練には、これらすべてのタスクが必要であると信じています。
そこで本研究では,テキストの明確化に組込みparsbertを用いたvirapartフレームワークを提案する。
まず、分類手順の分類レイヤーに従って、ペルシャのBERT変種を使用した。
次に、モデル出力を組み合わせてcleartextを出力する。
提案したZWNJ認識モデル,句読点復元モデル,ペルシャ・エザフ構成モデルは,それぞれ96.90\%,92.13\%,98.50\%の平均F1マクロスコアを実行する。
実験の結果,提案手法はペルシャ語のテキストの洗練に非常に有効であることがわかった。
関連論文リスト
- FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts [0.0]
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
論文 参考訳(メタデータ) (2024-07-27T05:04:49Z) - FaBERT: Pre-training BERT on Persian Blogs [13.566089841138938]
FaBERTはHmBlogs corpusで事前訓練されたペルシアのBERTベースモデルである。
ペルシア語で広く使われている多様な文構造と言語様式の複雑さに対処する。
論文 参考訳(メタデータ) (2024-02-09T18:50:51Z) - PersianLLaMA: Towards Building First Persian Large Language Model [5.79461948374354]
本稿ではペルシャ語テキストとデータセットの収集に基づいて訓練されたペルシャ語モデルであるペルシャ語モデル(ペルシャ語モデル)を紹介する。
その結果、ペルシャのLLaMAは、ペルシャ語のテキストの理解と生成において、競争相手を著しく上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-12-25T12:48:55Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Effidit: Your AI Writing Assistant [60.588370965898534]
Effiditは、人工知能(AI)技術を使用して、ユーザーが高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントである。
Effiditでは、テキスト補完、エラーチェック、テキスト研磨、キーワード・トゥ・センテンス(K2S)、クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで、筆記アシスタントの能力を大幅に拡大する。
論文 参考訳(メタデータ) (2022-08-03T02:24:45Z) - Evaluating Persian Tokenizers [6.10917825357379]
この記事ではペルシャ語で最も広く使われているトークンーエーザによる新しい研究を紹介する。
単純なアルゴリズムと事前にタグ付けされたペルシャの依存関係データセットを使用して、ペルシャのテキストのパフォーマンスを比較し評価する。
F1-Scoreでトークン化剤を評価した後、F1スコア98.97%のバウンドモルヒムを固定したFarsi VerbとHazmのハイブリッド版が最高の性能を示した。
論文 参考訳(メタデータ) (2022-02-22T13:27:24Z) - The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach [0.0]
この研究は、ペルシャのユーザー生成テキストコンテンツがもたらすハードルに対処するために機械学習ベースのアプローチを適用します。
提示されたアプローチは、ペルシア語の感情分析を行うために機械翻訳データセットを使用する。
実験の結果は、これまでの試みとは対照的に、有望な最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-01-20T11:57:59Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。