論文の概要: Supervised Grapheme-to-Phoneme Conversion of Orthographic Schwas in
Hindi and Punjabi
- arxiv url: http://arxiv.org/abs/2004.10353v2
- Date: Sat, 25 Apr 2020 16:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 18:04:40.689268
- Title: Supervised Grapheme-to-Phoneme Conversion of Orthographic Schwas in
Hindi and Punjabi
- Title(参考訳): ヒンディー語とパンジャービ語におけるオーソグラフィシュワのグラファイム・ツー・フォネム変換の監督
- Authors: Aryaman Arora, Luke Gessler, Nathan Schneider
- Abstract要約: ヒンディー語に対する最初の統計的シュワ削除分類器を示す。
各種オンライン辞書から抽出した発音辞書を新たにコンパイルした。
我々の最高のヒンディー語モデルは、芸術的パフォーマンスの状態を達成し、また、近縁な言語であるPunjabiにおいて、変更することなく、優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 12.760865791731247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hindi grapheme-to-phoneme (G2P) conversion is mostly trivial, with one
exception: whether a schwa represented in the orthography is pronounced or
unpronounced (deleted). Previous work has attempted to predict schwa deletion
in a rule-based fashion using prosodic or phonetic analysis. We present the
first statistical schwa deletion classifier for Hindi, which relies solely on
the orthography as the input and outperforms previous approaches. We trained
our model on a newly-compiled pronunciation lexicon extracted from various
online dictionaries. Our best Hindi model achieves state of the art
performance, and also achieves good performance on a closely related language,
Punjabi, without modification.
- Abstract(参考訳): Hindi grapheme-to-phoneme (G2P) 変換は、正書法で表される schwa が発音されるか、未発音(削除)されるかという例外を除いて、ほとんど自明である。
従来の研究は、韻律や音声分析を用いて、規則に基づく方法でシュワの削除を予測しようと試みてきた。
我々は、ヒンディー語に対する最初の統計シュワッチ削除分類器を提示する。これは、入力として正書法のみに依存し、以前のアプローチを上回っている。
様々なオンライン辞書から抽出した発音レキシコンを用いて学習した。
我々の最高のヒンディー語モデルは、芸術的パフォーマンスの状態を達成し、また、近縁な言語であるパンジャービにおいて、変更することなく優れたパフォーマンスを達成する。
関連論文リスト
- Small Language Models Like Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
我々は,Llamaアーキテクチャに基づく小型モデルは,標準構文および新しい語彙/音声のベンチマークにおいて,強力な言語性能が得られることを示す。
本研究は,言語習得と処理の計算研究に適する言語学的に妥当な言語モデルを作成するための,有望な方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-02T12:36:08Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - English-to-Chinese Transliteration with Phonetic Back-transliteration [0.9281671380673306]
音素の類似性に基づいて、名前付きエンティティを言語から別の言語に翻訳するタスクである。
本研究では,2つの方法で音声情報をニューラルネットワークに組み込む。
私たちの実験には3つの言語対と6つの方向、すなわち英語から中国語、ヘブライ語、タイ語までが含まれる。
論文 参考訳(メタデータ) (2021-12-20T03:29:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - HinFlair: pre-trained contextual string embeddings for pos tagging and
text classification in the Hindi language [0.0]
HinFlairは、巨大な単言語Hindiコーパスで事前訓練された言語表現モデル(コンテキスト文字列埋め込み)である。
結果は、HinFlairが、テキスト分類やposタグ付けといった下流タスクのために、既存の最先端の公開トレーニング済みの埋め込みよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-18T09:23:35Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。