論文の概要: MenakBERT -- Hebrew Diacriticizer
- arxiv url: http://arxiv.org/abs/2410.02417v1
- Date: Thu, 3 Oct 2024 12:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:20:51.352868
- Title: MenakBERT -- Hebrew Diacriticizer
- Title(参考訳): MenakBERT -- Hebrew Diacriticizer
- Authors: Ido Cohen, Jacob Gidron, Idan Pinto,
- Abstract要約: 我々はヘブライ語文で事前訓練された文字レベル変換器であるMenakBERTを紹介し、ヘブライ語文のダイアクリティカルマークを生成するよう微調整した。
本稿では,音声タグ付けなどのタスクへの移動を記述するためのモデルがいかに微調整されているかを示す。
- 参考スコア(独自算出の注目度): 0.13654846342364307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diacritical marks in the Hebrew language give words their vocalized form. The task of adding diacritical marks to plain Hebrew text is still dominated by a system that relies heavily on human-curated resources. Recent models trained on diacritized Hebrew texts still present a gap in performance. We use a recently developed char-based PLM to narrowly bridge this gap. Presenting MenakBERT, a character level transformer pretrained on Hebrew text and fine-tuned to produce diacritical marks for Hebrew sentences. We continue to show how finetuning a model for diacritizing transfers to a task such as part of speech tagging.
- Abstract(参考訳): ヘブライ語のダイアクリティカルマークは、彼らの声のついた形を与える。
平易なヘブライ語のテキストにダイアクリティカルマークを加えるという作業は、いまだに人為的なリソースに大きく依存するシステムによって支配されている。
ダイアクリッド化されたヘブライ語のテキストで訓練された最近のモデルは、未だに性能のギャップを呈している。
我々は、このギャップを狭く埋めるために、最近開発されたシャルベースPLMを使用します。
MenakBERTはヘブライ語のテキストで事前訓練された文字レベルのトランスフォーマーで、ヘブライ語の文のダイアクリティカルマークを生成するために微調整された。
音声タグ付けなどのタスクへの移動を分類するためのモデルを微調整する方法を引き続き示す。
関連論文リスト
- A Language Modeling Approach to Diacritic-Free Hebrew TTS [21.51896995655732]
我々はヘブライ語におけるテキスト音声(TTS)の課題に取り組む。
伝統的なヘブライ語には、個人が与えられた言葉を発音する方法を規定するダイアクリティカル語が含まれている。
現代ヘブライ語におけるダイアクリティカルな発音の欠如は、読者が正しい発音を結論付けることを期待する結果となった。
論文 参考訳(メタデータ) (2024-07-16T22:43:49Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - Introducing BEREL: BERT Embeddings for Rabbinic-Encoded Language [3.0663766446277845]
本稿では,ラビニク・ヘブライ語のための事前学習型言語モデル(PLM)をBelelと呼ぶ。
ベレルは現代ヘブライ語のテキストで教育を受けており、ラビニク・ヘブライ語からその語彙的、形態的、構文的、正書法的な規範で大きく分かれている。
我々は、ヘブライ語ホモグラフの挑戦集合を通して、ラビ語文におけるベレルの優越性を実証する。
論文 参考訳(メタデータ) (2022-08-03T06:59:04Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Restoring Hebrew Diacritics Without a Dictionary [4.733760777271136]
我々は,平易なダイアクリッドテキスト以外の人為的なリソースを使わずにヘブライ語の文字をダイアクリットすることは可能であることを示す。
より複雑なキュレーション依存システムと同等に機能する2層キャラクタレベルLSTMであるNAKDIMONを紹介します。
論文 参考訳(メタデータ) (2021-05-11T17:23:29Z) - AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your
Hebrew NLP Application With [7.345047237652976]
大規模プリトレーニング言語モデル(PLM)は、言語理解技術の発展においてユビキタスになっています。
PLMを用いた英語の進歩は前例がないが、ヘブライ語でのPLMの使用の進展は少ない。
論文 参考訳(メタデータ) (2021-04-08T20:51:29Z) - Nakdan: Professional Hebrew Diacritizer [43.58927359102219]
ヘブライ語テキストの自動発音システムを提案する。
このシステムは、現代のニューラルモデルと慎重にキュレートされた宣言的言語知識を組み合わせる。
このシステムは現代ヘブライ語、ラビ語ヘブライ語、詩語ヘブライ語をサポートする。
論文 参考訳(メタデータ) (2020-05-07T08:15:55Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。