論文の概要: Classifying Graphemes in English Words Through the Application of a Fuzzy Inference System
- arxiv url: http://arxiv.org/abs/2404.01953v1
- Date: Tue, 2 Apr 2024 13:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 16:19:00.860252
- Title: Classifying Graphemes in English Words Through the Application of a Fuzzy Inference System
- Title(参考訳): ファジィ推論システムによる英語単語の文法分類
- Authors: Samuel Rose, Chandrasekhar Kambhampati,
- Abstract要約: 言語学において、グラテム(グラテム、英: grapheme)とは、音韻音に対応する書記体系の書記単位である。
本稿では,単語をグラフに分割するファジィ推論システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Linguistics, a grapheme is a written unit of a writing system corresponding to a phonological sound. In Natural Language Processing tasks, written language is analysed through two different mediums, word analysis, and character analysis. This paper focuses on a third approach, the analysis of graphemes. Graphemes have advantages over word and character analysis by being self-contained representations of phonetic sounds. Due to the nature of splitting a word into graphemes being based on complex, non-binary rules, the application of fuzzy logic would provide a suitable medium upon which to predict the number of graphemes in a word. This paper proposes the application of a Fuzzy Inference System to split words into their graphemes. This Fuzzy Inference System results in a correct prediction of the number of graphemes in a word 50.18% of the time, with 93.51% being within a margin of +- 1 from the correct classification. Given the variety in language, graphemes are tied with pronunciation and therefore can change depending on a regional accent/dialect, the +- 1 accuracy represents the impreciseness of grapheme classification when regional variances are accounted for. To give a baseline of comparison, a second method involving a recursive IPA mapping exercise using a pronunciation dictionary was developed to allow for comparisons to be made.
- Abstract(参考訳): 言語学において、グラテム(グラテム、英: grapheme)とは、音韻音に対応する書記体系の書記単位である。
自然言語処理タスクでは、文章言語は、単語分析と文字解析という2つの異なる媒体を通して分析される。
本稿では,第3のアプローチであるグラテムの分析に焦点をあてる。
グラフエムは、音声の自己完結した表現によって、単語や文字の分析よりも有利である。
単語を複雑な非二項規則に基づくグラフエムに分割する性質のため、ファジィ論理の適用は単語中のグラフエムの数を予測するのに適した媒体を提供する。
本稿では,単語をグラフに分割するファジィ推論システムを提案する。
このファジィ推論システムは、その時間の50.18%の単語でグラフエムの数を正確に予測し、93.51%は正しい分類から+-1の範囲内である。
言語の多様性から、グラテムは発音と結びついているので、局所的なアクセント/方言によって変化しうるので、+-1の精度は、地域差が考慮されるときのグラテム分類の不正確さを表す。
比較基準を与えるために,発音辞書を用いた再帰的IPAマッピング演習を含む第2の手法を開発した。
関連論文リスト
- SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Grammar-Based Grounded Lexicon Learning [68.59500589319023]
G2L2は、構成的および基礎的な言語表現を学ぶための語彙主義的なアプローチである。
G2L2の中核には語彙エントリの集まりがあり、各単語を構文型とニューロシンボリックセマンティックプログラムにマッピングする。
G2L2は、少量のデータから新しい単語合成へと一般化することができる。
論文 参考訳(メタデータ) (2022-02-17T18:19:53Z) - Sentence Structure and Word Relationship Modeling for Emphasis Selection [33.71757542373714]
強調選択は、短い文で強調する単語の選択に焦点を当てた、新しく提案されたタスクである。
従来の手法では、リッチな文構造と単語関係情報を無視しながら、文のシーケンス情報のみを考慮する。
本稿では,文構造グラフによる文構造と,単語類似性グラフによる単語関係を考慮した新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-08-29T04:43:25Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Disentangling Homophemes in Lip Reading using Perplexity Analysis [10.262299768603894]
本稿では,ジェネレーティブ・プレトレーニング・トランスの新しい応用法を提案する。
ヴィセムの形で視覚音声を、単語や文の形で言語に変換する言語モデルとして機能する。
ネットワークは最適なパープレキシティを探索して、ビセメ・ツー・ワードマッピングを実行する。
論文 参考訳(メタデータ) (2020-11-28T12:12:17Z) - Syllabification of the Divine Comedy [0.0]
本稿では,確率的および制約的プログラミングの手法を用いて,Divine Comedyのシラビフィケーションアルゴリズムを提案する。
我々は特に、隣接した単語でシナリーフに参加する単語の「正当性」の観点から、シナリーフに焦点を合わせている。
我々は,各単語について,その音節の音節化,音節アクセントの位置,上述の相補性といった情報を含むオンライン語彙を共同で提供する。
論文 参考訳(メタデータ) (2020-10-26T12:14:14Z) - Inducing Alignment Structure with Gated Graph Attention Networks for
Sentence Matching [24.02847802702168]
本稿では,文マッチングのためのグラフベースの手法を提案する。
文ペアをグラフとして表現し、慎重に設計する。
次に,文マッチングのために構築したグラフを符号化するために,新しいゲートグラフアテンションネットワークを用いる。
論文 参考訳(メタデータ) (2020-10-15T11:25:54Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。