Fugu-MT 論文翻訳(概要): The complementary roles of non-verbal cues for Robust Pronunciation Assessment

論文の概要: The complementary roles of non-verbal cues for Robust Pronunciation Assessment

arxiv url: http://arxiv.org/abs/2309.07739v1
Date: Thu, 14 Sep 2023 14:18:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 12:54:21.984415
Title: The complementary roles of non-verbal cues for Robust Pronunciation Assessment
Title（参考訳）: ロバスト発音評価における非言語的手がかりの相補的役割
Authors: Yassine El Kheir, Shammur Absar Chowdhury, Ahmed Ali
Abstract要約: 発音評価システムの研究は、非ネイティブ(L2)音声の音韻的・音声学的側面の活用に焦点を当てている。本研究では,新しい発音評価フレームワークであるIntraVerbalPAを提案する。
参考スコア（独自算出の注目度）: 10.15106073866792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Research on pronunciation assessment systems focuses on utilizing phonetic and phonological aspects of non-native (L2) speech, often neglecting the rich layer of information hidden within the non-verbal cues. In this study, we proposed a novel pronunciation assessment framework, IntraVerbalPA. % The framework innovatively incorporates both fine-grained frame- and abstract utterance-level non-verbal cues, alongside the conventional speech and phoneme representations. Additionally, we introduce ''Goodness of phonemic-duration'' metric to effectively model duration distribution within the framework. Our results validate the effectiveness of the proposed IntraVerbalPA framework and its individual components, yielding performance that either matches or outperforms existing research works.
Abstract（参考訳）: 発音評価システムの研究は、非母語(L2)音声の音韻的・音声学的側面の活用に重点を置いており、しばしば非言語的手がかりに隠れた情報層を無視する。本研究では,新しい発音評価フレームワークであるIntraVerbalPAを提案する。このフレームワークは,従来の音声および音素表現とともに,きめ細かなフレームレベルと抽象的な発話レベルの非言語的手がかりの両方を革新的に取り入れている。さらに,フレームワーク内の持続時間分布を効果的にモデル化するために,「音韻デュレーションの良さ」指標を導入する。提案するIntraVerbalPAフレームワークとその個々のコンポーネントの有効性を検証し,既存の研究成果に適合または優れる性能を得た。

関連論文リスト

On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文参考訳（メタデータ） (2026-01-09T22:01:56Z)
Joint Multimodal Contrastive Learning for Robust Spoken Term Detection and Keyword Spotting [13.48022380380599]
本研究では,共用組込み空間における音響・クロスモーダル監視を統一するマルチモーダルコントラスト学習フレームワークを提案する。 i) CLAPの損失にインスパイアされた音声テキストのコントラスト学習と, (ii) 音声音声のコントラスト学習をDeep Word Discrimination (DWD) の損失で同時に最適化し, クラス内コンパクト性とクラス間分離性を高める。提案手法は,STDとKWSの両方を柔軟にサポートしながら,単語識別タスクにおける既存のAWEベースラインよりも優れている。
論文参考訳（メタデータ） (2025-12-16T05:58:25Z)
Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
AS-ASR: A Lightweight Framework for Aphasia-Specific Automatic Speech Recognition [4.70623940988391]
AS-ASRはWhisper-tinyに基づく軽量な失語特異的音声認識フレームワークである。提案手法は,様々な比率で標準音声と失語音声を体系的に組み合わせ,ロバストな一般化を実現する。
論文参考訳（メタデータ） (2025-06-06T22:38:53Z)
From Speech to Summary: A Comprehensive Survey of Speech Summarization [52.97157554560492]
音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。その重要性が増しているにもかかわらず、音声要約はまだ明確に定義されておらず、音声認識、テキスト要約、会議要約のような特定の応用を含むいくつかの研究領域と交差している。
論文参考訳（メタデータ） (2025-04-10T17:50:53Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文参考訳（メタデータ） (2024-02-11T02:26:43Z)
Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。 AWEは以前、音響的識別可能性の把握に有用であることを示した。以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文参考訳（メタデータ） (2024-02-04T21:24:54Z)
Transfer the linguistic representations from TTS to accent conversion with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-07T16:39:34Z)
High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文参考訳（メタデータ） (2023-06-29T15:02:22Z)
Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文参考訳（メタデータ） (2022-04-01T14:25:19Z)
Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文参考訳（メタデータ） (2020-12-13T23:23:39Z)
Introducing Syntactic Structures into Target Opinion Word Extraction with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文参考訳（メタデータ） (2020-10-26T07:13:17Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)
An Effective Contextual Language Modeling Framework for Speech Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。提案手法の有効性をベンチマークデータセットで検証する。
論文参考訳（メタデータ） (2020-06-01T18:27:48Z)
Temporarily-Aware Context Modelling using Generative Adversarial Networks for Speech Activity Detection [43.662221486962274]
音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。 NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
論文参考訳（メタデータ） (2020-04-02T02:33:13Z)
Identification of primary and collateral tracks in stuttered speech [22.921077940732]
臨床およびNLPパースペクティブに着想を得て, 拡散検出のための新しい評価フレームワークを提案する。本稿では, 半方向性インタビューのコーパスから, 強制整列型ディスフルエンシデータセットを提案する。単語ベースのスパン特徴を用いることで,音声による予測のベースラインよりも優れることを示す。
論文参考訳（メタデータ） (2020-03-02T16:50:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。