論文の概要: External Knowledge Augmented Polyphone Disambiguation Using Large
Language Model
- arxiv url: http://arxiv.org/abs/2312.11920v1
- Date: Tue, 19 Dec 2023 08:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:36:38.346141
- Title: External Knowledge Augmented Polyphone Disambiguation Using Large
Language Model
- Title(参考訳): 大規模言語モデルを用いた外部知識強化ポリフォンの曖昧化
- Authors: Chen Li
- Abstract要約: 生成タスクとして問題を解くための新しい方法を提案する。
検索モジュールは中国語の多音文字の多段階意味辞書である外部知識を取り入れている。
生成モジュールはデコーダのみのTransformerアーキテクチャを採用し、ターゲットテキストを誘導する。
Postprocessモジュールは、必要に応じて生成されたテキストを有効な結果に修正する。
- 参考スコア(独自算出の注目度): 3.372242769313867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key issues in Mandarin Chinese text-to-speech (TTS) systems is
polyphone disambiguation when doing grapheme-to-phoneme (G2P) conversion. In
this paper, we introduce a novel method to solve the problem as a generation
task. Following the trending research of large language models (LLM) and prompt
learning, the proposed method consists of three modules. Retrieval module
incorporates external knowledge which is a multi-level semantic dictionary of
Chinese polyphonic characters to format the sentence into a prompt. Generation
module adopts the decoder-only Transformer architecture to induce the target
text. Postprocess module corrects the generated text into a valid result if
needed. Experimental results show that our method outperforms the existing
methods on a public dataset called CPP. We also empirically study the impacts
of different templates of the prompt, different sizes of training data, and
whether to incorporate external knowledge.
- Abstract(参考訳): マンダリン中国語のテキスト音声変換システム(TTS)の重要な課題の1つは、G2P変換を行う際のポリフォンの曖昧さである。
本稿では,この問題を生成タスクとして解くための新しい手法を提案する。
大規模言語モデル(llm)とプロンプト学習のトレンド研究に続いて,提案手法は3つのモジュールからなる。
Retrievalモジュールは、中国語のポリフォニック文字の多レベル意味辞書である外部知識を組み込んで、文章をプロンプトにフォーマットする。
生成モジュールはデコーダのみのTransformerアーキテクチャを採用し、ターゲットテキストを誘導する。
Postprocessモジュールは、必要に応じて生成されたテキストを有効な結果に修正する。
実験の結果,提案手法はcppと呼ばれる公開データセットの既存メソッドよりも優れていた。
また,プロンプトのテンプレートが与える影響,トレーニングデータのサイズ,外部知識の導入の有無について実験的に検討した。
関連論文リスト
- Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model [25.459787361454353]
本稿では,対話論理のCoD-Chainを利用して,多言語モデル(LLM)を指導指導のための知識集約型多元対話を生成する新しいフレームワークR2Sを提案する。
オープンソースデータセットとドメイン固有のWebcrawledドキュメントの両方の生文書をベンチマークK-BENCHに統合することにより、Wikipedia(英語)、Science(中国語)、Artifacts(中国語)などのさまざまな領域をカバーする。
論文 参考訳(メタデータ) (2024-07-03T12:04:10Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Plug and Play with Prompts: A Prompt Tuning Approach for Controlling Text Generation [16.49758711633611]
大規模言語モデル(LLM)は、テキストベースのプロンプトに応答して、例外的な言語生成能力を示す。
本研究では,制御言語生成におけるPrompt Tuningの利用について検討する。
本稿では, 言語モデルによる有害, 有害, 偏見のあるテキストを緩和する手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-08T01:54:28Z) - Unsupervised Sign Language Translation and Generation [72.01216288379072]
教師なし手話翻訳・生成ネットワーク(USLNet)を導入する。
USLNetは、並列手話データなしで、豊富な単一モダリティ(テキストとビデオ)データから学習する。
可変長テキストとビデオシーケンスの整合性の問題に対処するスライディングウインドウ手法を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:39:05Z) - Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone
Disambiguation [35.35236347070773]
ポリフォニック文字の発音を予測するためのG2Pモデルと、テキストの発音を予測するPhoneme-to-Grapheme(P2G)モデルを構築した。
我々は,不均衡分布やデータ不足を伴うトレーニングセットにおいて,典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。
論文 参考訳(メタデータ) (2022-11-17T12:37:41Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Pretrained Language Models for Dialogue Generation with Multiple Input
Sources [101.17537614998805]
本研究では,事前学習した言語モデルGPT2から適応した複数の入力源を持つ対話モデルについて検討する。
異なるソースに対応する複数の異なる注意情報を融合する様々な手法を探索する。
実験結果から, 核融合法は単純な核融合ベースラインよりも, 対話履歴との関連性が高いことがわかった。
論文 参考訳(メタデータ) (2020-10-15T07:53:28Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。