論文の概要: Restoring Hebrew Diacritics Without a Dictionary
- arxiv url: http://arxiv.org/abs/2105.05209v1
- Date: Tue, 11 May 2021 17:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 16:20:18.286642
- Title: Restoring Hebrew Diacritics Without a Dictionary
- Title(参考訳): 辞書のないヘブライ語の方言の復元
- Authors: Elazar Gershuni, Yuval Pinter
- Abstract要約: 我々は,平易なダイアクリッドテキスト以外の人為的なリソースを使わずにヘブライ語の文字をダイアクリットすることは可能であることを示す。
より複雑なキュレーション依存システムと同等に機能する2層キャラクタレベルLSTMであるNAKDIMONを紹介します。
- 参考スコア(独自算出の注目度): 4.733760777271136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that it is feasible to diacritize Hebrew script without any
human-curated resources other than plain diacritized text. We present NAKDIMON,
a two-layer character level LSTM, that performs on par with much more
complicated curation-dependent systems, across a diverse array of modern Hebrew
sources.
- Abstract(参考訳): 我々は,平易なダイアクリッドテキスト以外の人為的なリソースを使わずにヘブライ語の文字をダイアクリットできることを示す。
我々は、より複雑なキュレーションに依存したシステムと同等の2層キャラクタレベルLSTMであるNAKDIMONを、多様なヘブライ語ソースにまたがって提案する。
関連論文リスト
- Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Introducing BEREL: BERT Embeddings for Rabbinic-Encoded Language [3.0663766446277845]
本稿では,ラビニク・ヘブライ語のための事前学習型言語モデル(PLM)をBelelと呼ぶ。
ベレルは現代ヘブライ語のテキストで教育を受けており、ラビニク・ヘブライ語からその語彙的、形態的、構文的、正書法的な規範で大きく分かれている。
我々は、ヘブライ語ホモグラフの挑戦集合を通して、ラビ語文におけるベレルの優越性を実証する。
論文 参考訳(メタデータ) (2022-08-03T06:59:04Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Data Augmentation for Sign Language Gloss Translation [115.13684506803529]
手話翻訳(SLT)は、しばしばビデオ-グロス認識とグロス-テキスト翻訳に分解される。
ここでは低リソースのニューラルネットワーク翻訳(NMT)問題として扱うグロス・トゥ・テキスト翻訳に焦点を当てる。
そこで得られた合成データの事前学習により、アメリカ手話(ASL)から英語、ドイツ語手話(DGS)からドイツ語への翻訳を、それぞれ3.14および2.20BLEUまで改善した。
論文 参考訳(メタデータ) (2021-05-16T16:37:36Z) - AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your
Hebrew NLP Application With [7.345047237652976]
大規模プリトレーニング言語モデル(PLM)は、言語理解技術の発展においてユビキタスになっています。
PLMを用いた英語の進歩は前例がないが、ヘブライ語でのPLMの使用の進展は少ない。
論文 参考訳(メタデータ) (2021-04-08T20:51:29Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Discovering Bilingual Lexicons in Polyglot Word Embeddings [32.53342453685406]
本研究では,多言語単語の埋め込みを生成する多言語コーパスで訓練された1つのスキップグラムモデルを利用する。
本稿では, 比較的単純な近傍サンプリング手法により, バイリンガル辞書を検索できることを示す。
3つのヨーロッパ語対にまたがって、多言語単語の埋め込みは、確かに単語のリッチな意味表現を学習する。
論文 参考訳(メタデータ) (2020-08-31T03:57:50Z) - Building a Hebrew Semantic Role Labeling Lexical Resource from Parallel
Movie Subtitles [4.089055556130724]
本稿では,英語からのアノテーション投影によって半自動構築されたヘブライ語における意味的役割のラベル付け資源を提案する。
このコーパスは多言語OpenSubtitlesデータセットから派生し、短い非公式文を含む。
FrameNetとPropBankの両スタイルで、形態解析、依存性の構文、セマンティックロールのラベル付けを含む、完全に注釈付けされたデータを提供する。
我々は、このヘブライ語リソース上で、事前訓練された多言語BERTトランスフォーマーモデルを利用して、ニューラルネットワークSRLモデルをトレーニングし、基準点として、Hebrew SRLの最初のベースラインモデルを提供する。
論文 参考訳(メタデータ) (2020-05-17T10:03:42Z) - Nakdan: Professional Hebrew Diacritizer [43.58927359102219]
ヘブライ語テキストの自動発音システムを提案する。
このシステムは、現代のニューラルモデルと慎重にキュレートされた宣言的言語知識を組み合わせる。
このシステムは現代ヘブライ語、ラビ語ヘブライ語、詩語ヘブライ語をサポートする。
論文 参考訳(メタデータ) (2020-05-07T08:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。