Fugu-MT 論文翻訳(概要): Nakdan: Professional Hebrew Diacritizer

論文の概要: Nakdan: Professional Hebrew Diacritizer

arxiv url: http://arxiv.org/abs/2005.03312v1
Date: Thu, 7 May 2020 08:15:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 23:15:44.560147
Title: Nakdan: Professional Hebrew Diacritizer
Title（参考訳）: Nakdan: プロのヘブライ語発音器
Authors: Avi Shmidman, Shaltiel Shmidman, Moshe Koppel, Yoav Goldberg
Abstract要約: ヘブライ語テキストの自動発音システムを提案する。このシステムは、現代のニューラルモデルと慎重にキュレートされた宣言的言語知識を組み合わせる。このシステムは現代ヘブライ語、ラビ語ヘブライ語、詩語ヘブライ語をサポートする。
参考スコア（独自算出の注目度）: 43.58927359102219
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a system for automatic diacritization of Hebrew text. The system combines modern neural models with carefully curated declarative linguistic knowledge and comprehensive manually constructed tables and dictionaries. Besides providing state of the art diacritization accuracy, the system also supports an interface for manual editing and correction of the automatic output, and has several features which make it particularly useful for preparation of scientific editions of Hebrew texts. The system supports Modern Hebrew, Rabbinic Hebrew and Poetic Hebrew. The system is freely accessible for all use at http://nakdanpro.dicta.org.il.
Abstract（参考訳）: 本稿では,ヘブライ語のテキストの自動読取システムを提案する。このシステムは、現代的なニューラルモデルと、慎重にキュレートされた宣言的言語知識と、手作業で構築されたテーブルと辞書を組み合わせる。このシステムは、美術診断の精度の向上に加えて、自動出力の手動編集と修正のためのインタフェースもサポートしており、ヘブライ語の文章の科学版の作成に特に役立ついくつかの特徴を持っている。このシステムは現代ヘブライ語、ラビ語ヘブライ語、詩語ヘブライ語をサポートする。システムはhttp://nakdanpro.dicta.org.il.com/で自由に利用できる。

関連論文リスト

Phonikud: Hebrew Grapheme-to-Phoneme Conversion for Real-Time Text-to-Speech [1.3124513975412255]
Phonikudは、完全に特定されたIPA転写を出力する軽量でオープンソースのHebrew grapheme-to-phoneme(G2P)システムである。我々は、転写されたヘブライ語音声のILSpeechデータセットにIPAアノテーションを付与し、ヘブライ語G2PのベンチマークやTSシステムのトレーニングデータとして機能する。
論文参考訳（メタデータ） (2025-06-14T02:16:38Z)
MenakBERT -- Hebrew Diacriticizer [0.13654846342364307]
我々はヘブライ語文で事前訓練された文字レベル変換器であるMenakBERTを紹介し、ヘブライ語文のダイアクリティカルマークを生成するよう微調整した。本稿では,音声タグ付けなどのタスクへの移動を記述するためのモデルがいかに微調整されているかを示す。
論文参考訳（メタデータ） (2024-10-03T12:07:34Z)
A Library for Automatic Natural Language Generation of Spanish Texts [6.102700502396687]
本稿では,スペイン語文の自然言語生成システム(NLG)について,意味のある単語の最小セットから提案する。システムは、ユーザが提示した主語セットから完全で一貫性があり、正しく綴られた文を生成することができる。設計によって他の言語に容易に適応でき、広範囲のデジタルデバイスに統合することができる。
論文参考訳（メタデータ） (2024-05-27T15:44:06Z)
Introducing DictaLM -- A Large Generative Language Model for Modern Hebrew [2.1547347528250875]
現代ヘブライ語に合わせた大規模言語モデルであるDictaLMについて紹介する。ヘブライ語における研究・開発促進の取り組みとして,創造コモンズライセンスの下で基礎モデルと教科モデルの両方をリリースする。
論文参考訳（メタデータ） (2023-09-25T22:42:09Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Introducing BEREL: BERT Embeddings for Rabbinic-Encoded Language [3.0663766446277845]
本稿では,ラビニク・ヘブライ語のための事前学習型言語モデル(PLM)をBelelと呼ぶ。ベレルは現代ヘブライ語のテキストで教育を受けており、ラビニク・ヘブライ語からその語彙的、形態的、構文的、正書法的な規範で大きく分かれている。我々は、ヘブライ語ホモグラフの挑戦集合を通して、ラビ語文におけるベレルの優越性を実証する。
論文参考訳（メタデータ） (2022-08-03T06:59:04Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Restoring Hebrew Diacritics Without a Dictionary [4.733760777271136]
我々は,平易なダイアクリッドテキスト以外の人為的なリソースを使わずにヘブライ語の文字をダイアクリットすることは可能であることを示す。より複雑なキュレーション依存システムと同等に機能する2層キャラクタレベルLSTMであるNAKDIMONを紹介します。
論文参考訳（メタデータ） (2021-05-11T17:23:29Z)
Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文参考訳（メタデータ） (2021-01-20T17:54:47Z)
Breaking Writer's Block: Low-cost Fine-tuning of Natural Language Generation Models [62.997667081978825]
ライターのブロックを解くという問題に対して,自然言語生成モデルを微調整するシステムについて述べる。提案した微調整は, 少数のエポックとUSD150の総コストを伴っても, 優れた結果が得られる。
論文参考訳（メタデータ） (2020-12-19T11:19:11Z)
Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文参考訳（メタデータ） (2020-10-02T18:31:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。