論文の概要: A comparative study of Grid and Natural sentences effects on
Normal-to-Lombard conversion
- arxiv url: http://arxiv.org/abs/2309.10485v1
- Date: Tue, 19 Sep 2023 09:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 15:15:10.173569
- Title: A comparative study of Grid and Natural sentences effects on
Normal-to-Lombard conversion
- Title(参考訳): 正規対ロンバルド変換におけるグリッドと自然文の比較研究
- Authors: Hongyang Chen, Yuhong Yang, Qingmu Liu, Baifeng Li, Weiping Tu, Song
Lin
- Abstract要約: グリッド文で訓練された正規語からロンバルド語へのモデルが、現実世界の応用における自然言語の可知性を改善するのに十分かどうかは不明だ。
LCTとEMALGを用いたLombard効果とNormal-to-Lombard変換の観点から,自然文と格子文を比較した。
性別による主観的インテリジェンス評価と信号対雑音比(Signal-to-Noise Ratios)に続いて、EMALGでトレーニングされたStarGANモデルは、インテリジェンスの改善の観点からLCTでトレーニングされたモデルよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 18.061043559517127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grid sentence is commonly used for studying the Lombard effect and
Normal-to-Lombard conversion. However, it's unclear if Normal-to-Lombard models
trained on grid sentences are sufficient for improving natural speech
intelligibility in real-world applications. This paper presents the recording
of a parallel Lombard corpus (called Lombard Chinese TIMIT, LCT) extracting
natural sentences from Chinese TIMIT. Then We compare natural and grid
sentences in terms of Lombard effect and Normal-to-Lombard conversion using LCT
and Enhanced MAndarin Lombard Grid corpus (EMALG). Through a parametric
analysis of the Lombard effect, We find that as the noise level increases, both
natural sentences and grid sentences exhibit similar changes in parameters, but
in terms of the increase of the alpha ratio, grid sentences show a greater
increase. Following a subjective intelligibility assessment across genders and
Signal-to-Noise Ratios, the StarGAN model trained on EMALG consistently
outperforms the model trained on LCT in terms of improving intelligibility.
This superior performance may be attributed to EMALG's larger alpha ratio
increase from normal to Lombard speech.
- Abstract(参考訳): グリッド文は一般にロンバルド効果と通常のロンバルド変換を研究するために用いられる。
しかし、実世界のアプリケーションで自然言語理解性を改善するのに、グリッド文で訓練された通常のロンバルドモデルが十分であるかどうかは不明である。
本稿では,中国語の TIMIT から自然文を抽出する並列な Lombard コーパス (Lombard Chinese TIMIT, LCT) の記録について述べる。
次に,lctと拡張マンダリンロンバルドグリッドコーパス(emalg)を用いて,ロンバルド効果と正常からランバルドへの変換の観点から自然文とグリッド文を比較した。
ランゴバルド効果のパラメトリック解析により、雑音レベルが増加するにつれて、自然文とグリッド文の両方がパラメータに類似する変化を示すが、アルファ比の増加の観点では、グリッド文が増大する。
性別による主観的インテリジェンス評価と信号対雑音比(Signal-to-Noise Ratios)に続いて、EMALGでトレーニングされたStarGANモデルは、インテリジェンスの改善の観点からLCTでトレーニングされたモデルよりも一貫して優れている。
この優れた性能は、EMALGの正規語からロンバルド語へのアルファ比の増大に起因する可能性がある。
関連論文リスト
- PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Investigating Training Strategies and Model Robustness of Low-Rank
Adaptation for Language Modeling in Speech Recognition [27.515920408920216]
フリーズドプレトレーニング言語モデル(PLM)を用いたローランク適応(LoRA)は、メモリ制約ハードウェアのための資源効率の高いモデリング手法である。
本研究では,様々なLoRAトレーニング戦略を導入することにより,モデル性能を向上させる方法について検討する。
LoRAに基づく第2パス音声認識モデルの安定性をさらに評価するため,入力摂動に対する検討を行った。
論文 参考訳(メタデータ) (2024-01-19T01:30:16Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - ngram-OAXE: Phrase-Based Order-Agnostic Cross Entropy for
Non-Autoregressive Machine Translation [51.06378042344563]
オートレグレッシブ翻訳(NAT)におけるマルチモーダリティの効果を改善できる新しい訓練用Oaxe損失が証明された
我々は、ngram 句間の並べ替えのみを許し、句内の単語順序の厳密な一致をいまだ必要とすることで oaxe を拡張する。
さらに分析したところ、ngram-oaxeは実際にngram句の翻訳を改善し、文構造をより良くモデル化してより流動的な翻訳を生成することがわかった。
論文 参考訳(メタデータ) (2022-10-08T11:39:15Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - Amortized Noisy Channel Neural Machine Translation [53.48804610779759]
ノイズチャネルモデルは神経機械翻訳(NMT)に特に有効である
我々は,BSRで生成された翻訳と同じ報酬を最大化する翻訳を生成するような,アモータイズされたノイズチャネルNMTモデルを構築することを目指している。
論文 参考訳(メタデータ) (2021-12-16T07:10:02Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - Variational Neural Machine Translation with Normalizing Flows [13.537869825364718]
変分ニューラルネットワーク変換(VNMT)は、ターゲット翻訳の生成をモデル化するための魅力的なフレームワークである。
本稿では,VNMTフレームワークを最先端のTransformerに適用し,正規化フローに基づくより柔軟な近似後流を導入することを提案する。
論文 参考訳(メタデータ) (2020-05-28T13:30:53Z) - LASG: Lazily Aggregated Stochastic Gradients for Communication-Efficient
Distributed Learning [47.93365664380274]
本稿では,フェデレーション学習などの分散機械学習問題を,コミュニケーション効率のよい方法で解くことを目的とする。
新しい勾配勾配勾配法 (SGD) のクラスが開発され、最近開発された遅延集約勾配法 (LAG) の一般化と見なすことができる。
LASGの重要なコンポーネントは、ダウンロード、アップロード、あるいは両方を保存できるグラデーション用に調整された新しいルールのセットである。
論文 参考訳(メタデータ) (2020-02-26T08:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。