論文の概要: Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models
- arxiv url: http://arxiv.org/abs/2505.12973v1
- Date: Mon, 19 May 2025 11:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.551084
- Title: Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models
- Title(参考訳): Fast, not Fancy: リッチデータとルールベースのモデルによるG2Pの再考
- Authors: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee,
- Abstract要約: ホログラフの曖昧さは、G2P変換において重要な課題である。
本稿では、ホモグラフに着目したデータセットを構築するための半自動パイプラインを提案し、その効果を実証する。
我々は、最もよく知られたルールベースのG2PシステムであるeSpeakを高速なホモグラフ対応バージョンであるHomoFast eSpeakに改良する。
- 参考スコア(独自算出の注目度): 2.8948274245812327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Homograph disambiguation remains a significant challenge in grapheme-to-phoneme (G2P) conversion, especially for low-resource languages. This challenge is twofold: (1) creating balanced and comprehensive homograph datasets is labor-intensive and costly, and (2) specific disambiguation strategies introduce additional latency, making them unsuitable for real-time applications such as screen readers and other accessibility tools. In this paper, we address both issues. First, we propose a semi-automated pipeline for constructing homograph-focused datasets, introduce the HomoRich dataset generated through this pipeline, and demonstrate its effectiveness by applying it to enhance a state-of-the-art deep learning-based G2P system for Persian. Second, we advocate for a paradigm shift - utilizing rich offline datasets to inform the development of fast, rule-based methods suitable for latency-sensitive accessibility applications like screen readers. To this end, we improve one of the most well-known rule-based G2P systems, eSpeak, into a fast homograph-aware version, HomoFast eSpeak. Our results show an approximate 30% improvement in homograph disambiguation accuracy for the deep learning-based and eSpeak systems.
- Abstract(参考訳): ホログラフの曖昧さは、特に低リソース言語において、G2P変換において重要な課題である。
この課題は2つある: 1) バランスのとれた、包括的なホモグラフデータセットの作成は、労働集約的でコストがかかり、(2) 特定の曖昧さの戦略は、追加のレイテンシを導入し、スクリーンリーダーやその他のアクセシビリティツールのようなリアルタイムアプリケーションには適さない。
本稿では,両問題に対処する。
まず、ホモグラフに着目したデータセットを構築するための半自動パイプラインを提案し、このパイプラインを通して生成されたHomoRichデータセットを導入し、ペルシア語のための最先端のディープラーニングベースG2Pシステムを強化することで、その効果を実証する。
第二に、スクリーンリーダーのようなレイテンシに敏感なアクセシビリティアプリケーションに適した、高速でルールベースの手法の開発を知らせるために、リッチなオフラインデータセットを活用するパラダイムシフトを提唱する。
この目的のために、最もよく知られたルールベースのG2PシステムであるeSpeakを高速なホモグラフ対応バージョンであるHomoFast eSpeakに改良する。
その結果,ディープラーニングとeSpeakシステムにおけるホモグラフの曖昧さの精度はおよそ30%向上した。
関連論文リスト
- Bridging the Gap: An Intermediate Language for Enhanced and Cost-Effective Grapheme-to-Phoneme Conversion with Homographs with Multiple Pronunciations Disambiguation [0.0]
本稿ではペルシャ語処理に特化して設計された中間言語を紹介する。
提案手法は,Large Language Model (LLM) のプロンプト技術と,特殊なシーケンス・ツー・シーケンス・マシン・トランスリテラルアーキテクチャの2つの重要なコンポーネントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-05-10T11:10:48Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models [74.71484979138161]
Grapheme-to-phoneme (G2P)変換は、Text-to-Speech (TTS)システムにおいて重要なステップである。
文脈対応シナリオの処理におけるLLM(Large Language Models)の成功に触発されて,文脈型G2P変換システムを提案する。
ICKRをG2P変換システムに組み込むことの有効性は、Librig2pデータセットで完全に実証されている。
論文 参考訳(メタデータ) (2024-11-12T05:38:43Z) - LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study [2.8948274245812327]
Grapheme-to-phoneme (G2P)変換は音声処理において重要である。
大規模言語モデル(LLM)は、最近、様々な言語タスクにおいて大きな可能性を証明している。
本稿では,ペルシャ語の文レベルの音声課題に対して,G2Pの性能を評価するためのベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-13T06:13:55Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - GNNavi: Navigating the Information Flow in Large Language Models by Graph Neural Network [49.91919718254597]
大規模な言語モデル(LLM)は、デモによるプロンプトを使用すると、強いコンテキスト学習能力を示す。
プロンプトベースの微調整は、低データシナリオにおいて効果的な微調整法であることが証明されているが、計算資源に対する高い要求は、その実用性を制限する。
GNNaviはグラフニューラルネットワークレイヤを使用して、プロンプト処理中に情報フローの集約と分布を正確にガイドする。
論文 参考訳(メタデータ) (2024-02-18T21:13:05Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Learning Strong Graph Neural Networks with Weak Information [64.64996100343602]
我々は、弱い情報(GLWI)を用いたグラフ学習問題に対する原則的アプローチを開発する。
非完全構造を持つ入力グラフ上で長距離情報伝搬を行うデュアルチャネルGNNフレームワークであるD$2$PTを提案するが、グローバルな意味的類似性を符号化するグローバルグラフも提案する。
論文 参考訳(メタデータ) (2023-05-29T04:51:09Z) - LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme
conversion [18.83348872103488]
Grapheme-to-phoneme (G2P) は文字を対応する発音に変換する役割を担っている。
既存のメソッドはパフォーマンスが遅いか悪いかのいずれかで、アプリケーションのシナリオに制限がある。
本稿では,高速で軽量で理論的に並列なLiteG2Pを提案する。
論文 参考訳(メタデータ) (2023-03-02T09:16:21Z) - Multi-Module G2P Converter for Persian Focusing on Relations between
Words [1.3764085113103217]
提案するマルチモジュールG2Pシステムは,精度と高速化の観点から,エンド・ツー・エンドのシステムより優れている。
このシステムは単語レベルではなくシーケンスレベルであり、単語間の非記述関係を効果的に捉えることができる。
論文 参考訳(メタデータ) (2022-08-02T11:33:48Z) - r-G2P: Evaluating and Enhancing Robustness of Grapheme to Phoneme
Conversion by Controlled noise introducing and Contextual information
incorporation [32.75866643254402]
ニューラルG2Pモデルはスペルミスのようなグラフエムの正書法の変化に対して極めて敏感であることを示す。
雑音の多い学習データを合成するための3つの制御ノイズ導入法を提案する。
文脈情報をベースラインに組み込んで,トレーニングプロセスの安定化のための堅牢なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。