論文の概要: Restoring Hebrew Diacritics Without a Dictionary
- arxiv url: http://arxiv.org/abs/2105.05209v1
- Date: Tue, 11 May 2021 17:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 16:20:18.286642
- Title: Restoring Hebrew Diacritics Without a Dictionary
- Title(参考訳): 辞書のないヘブライ語の方言の復元
- Authors: Elazar Gershuni, Yuval Pinter
- Abstract要約: 我々は,平易なダイアクリッドテキスト以外の人為的なリソースを使わずにヘブライ語の文字をダイアクリットすることは可能であることを示す。
より複雑なキュレーション依存システムと同等に機能する2層キャラクタレベルLSTMであるNAKDIMONを紹介します。
- 参考スコア(独自算出の注目度): 4.733760777271136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that it is feasible to diacritize Hebrew script without any
human-curated resources other than plain diacritized text. We present NAKDIMON,
a two-layer character level LSTM, that performs on par with much more
complicated curation-dependent systems, across a diverse array of modern Hebrew
sources.
- Abstract(参考訳): 我々は,平易なダイアクリッドテキスト以外の人為的なリソースを使わずにヘブライ語の文字をダイアクリットできることを示す。
我々は、より複雑なキュレーションに依存したシステムと同等の2層キャラクタレベルLSTMであるNAKDIMONを、多様なヘブライ語ソースにまたがって提案する。
関連論文リスト
- MenakBERT -- Hebrew Diacriticizer [0.13654846342364307]
我々はヘブライ語文で事前訓練された文字レベル変換器であるMenakBERTを紹介し、ヘブライ語文のダイアクリティカルマークを生成するよう微調整した。
本稿では,音声タグ付けなどのタスクへの移動を記述するためのモデルがいかに微調整されているかを示す。
論文 参考訳(メタデータ) (2024-10-03T12:07:34Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - HeSum: a Novel Dataset for Abstractive Text Summarization in Hebrew [12.320161893898735]
HeSum(ヘサム)は、現代ヘブライ語で抽象的なテキスト要約のために設計されたベンチマークである。
HeSumは、プロが書いたヘブライ語ニュースサイトから入手した1万記事と1万記事のペアで構成されている。
言語学的分析は、ヘサムの高い抽象性とユニークな形態的課題を裏付ける。
論文 参考訳(メタデータ) (2024-06-06T09:36:14Z) - Introducing BEREL: BERT Embeddings for Rabbinic-Encoded Language [3.0663766446277845]
本稿では,ラビニク・ヘブライ語のための事前学習型言語モデル(PLM)をBelelと呼ぶ。
ベレルは現代ヘブライ語のテキストで教育を受けており、ラビニク・ヘブライ語からその語彙的、形態的、構文的、正書法的な規範で大きく分かれている。
我々は、ヘブライ語ホモグラフの挑戦集合を通して、ラビ語文におけるベレルの優越性を実証する。
論文 参考訳(メタデータ) (2022-08-03T06:59:04Z) - Data Augmentation for Sign Language Gloss Translation [115.13684506803529]
手話翻訳(SLT)は、しばしばビデオ-グロス認識とグロス-テキスト翻訳に分解される。
ここでは低リソースのニューラルネットワーク翻訳(NMT)問題として扱うグロス・トゥ・テキスト翻訳に焦点を当てる。
そこで得られた合成データの事前学習により、アメリカ手話(ASL)から英語、ドイツ語手話(DGS)からドイツ語への翻訳を、それぞれ3.14および2.20BLEUまで改善した。
論文 参考訳(メタデータ) (2021-05-16T16:37:36Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Building a Hebrew Semantic Role Labeling Lexical Resource from Parallel
Movie Subtitles [4.089055556130724]
本稿では,英語からのアノテーション投影によって半自動構築されたヘブライ語における意味的役割のラベル付け資源を提案する。
このコーパスは多言語OpenSubtitlesデータセットから派生し、短い非公式文を含む。
FrameNetとPropBankの両スタイルで、形態解析、依存性の構文、セマンティックロールのラベル付けを含む、完全に注釈付けされたデータを提供する。
我々は、このヘブライ語リソース上で、事前訓練された多言語BERTトランスフォーマーモデルを利用して、ニューラルネットワークSRLモデルをトレーニングし、基準点として、Hebrew SRLの最初のベースラインモデルを提供する。
論文 参考訳(メタデータ) (2020-05-17T10:03:42Z) - Nakdan: Professional Hebrew Diacritizer [43.58927359102219]
ヘブライ語テキストの自動発音システムを提案する。
このシステムは、現代のニューラルモデルと慎重にキュレートされた宣言的言語知識を組み合わせる。
このシステムは現代ヘブライ語、ラビ語ヘブライ語、詩語ヘブライ語をサポートする。
論文 参考訳(メタデータ) (2020-05-07T08:15:55Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。