論文の概要: Hierarchical Pronunciation Assessment with Multi-Aspect Attention
- arxiv url: http://arxiv.org/abs/2211.08102v2
- Date: Fri, 26 May 2023 06:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-29 23:29:12.444829
- Title: Hierarchical Pronunciation Assessment with Multi-Aspect Attention
- Title(参考訳): 多視点注意による階層的発音評価
- Authors: Heejin Do, Yunsu Kim, Gary Geunbae Lee
- Abstract要約: マルチアスペクト注意(HiPAMA)モデルを用いた階層的発音評価を提案する。
HiPAMAは言語構造を直接捉えるための粒度レベルを階層的に表現し、多視点の注意を喚起する。
実験結果の顕著な改善は,HiPAMAの堅牢性を示している。
- 参考スコア(独自算出の注目度): 3.6825890616838066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic pronunciation assessment is a major component of a
computer-assisted pronunciation training system. To provide in-depth feedback,
scoring pronunciation at various levels of granularity such as phoneme, word,
and utterance, with diverse aspects such as accuracy, fluency, and
completeness, is essential. However, existing multi-aspect multi-granularity
methods simultaneously predict all aspects at all granularity levels;
therefore, they have difficulty in capturing the linguistic hierarchy of
phoneme, word, and utterance. This limitation further leads to neglecting
intimate cross-aspect relations at the same linguistic unit. In this paper, we
propose a Hierarchical Pronunciation Assessment with Multi-aspect Attention
(HiPAMA) model, which hierarchically represents the granularity levels to
directly capture their linguistic structures and introduces multi-aspect
attention that reflects associations across aspects at the same level to create
more connotative representations. By obtaining relational information from both
the granularity- and aspect-side, HiPAMA can take full advantage of multi-task
learning. Remarkable improvements in the experimental results on the
speachocean762 datasets demonstrate the robustness of HiPAMA, particularly in
the difficult-to-assess aspects.
- Abstract(参考訳): 自動発音評価はコンピュータによる発音訓練システムの主要な構成要素である。
音素、単語、発話などの様々なレベルの粒度で発音をスコアリングし、正確性、流束性、完全性といった多様な側面を欠かせない奥行きフィードバックを提供する。
しかし,既存の多アスペクト多粒度手法は,すべての粒度レベルを同時に予測するので,音素,単語,発話の言語的階層を捉えることは困難である。
この制限により、同一言語単位における親密な対面関係は無視される。
本稿では,言語構造を直接捉えるために,粒度レベルを階層的に表現する階層的発音評価(hipama,multi-aspect attention)モデルを提案する。
粒度とアスペクトの両面から関係情報を取得することで、HiPAMAはマルチタスク学習を最大限に活用することができる。
speachocean762データセットにおける実験結果の顕著な改善はヒパマのロバスト性、特に評価の難しい側面を示している。
関連論文リスト
- Contrastive Speaker-Aware Learning for Multi-party Dialogue Generation with LLMs [4.691083532629246]
マルチパーティ対話生成は、複数の話者の複雑な相互作用と会話スレッド間の相互作用によって大きな課題を呈する。
本稿では,事前学習されたLarge Language Models (LLM) を利用した新しい生成モデルである Speaker-Attentive LLM (SA-LLM) と,これらの課題に対処するための話者認識型コントラスト学習戦略を提案する。
SA-LLMは、明示的な関係アノテーションなしで文脈的コヒーレンスと話者の役割を暗黙的に学習する、話者対応の入力符号化と対照的な学習目的を取り入れている。
論文 参考訳(メタデータ) (2025-03-11T19:28:12Z) - Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Transformer-Based Multi-Aspect Multi-Granularity Non-Native English
Speaker Pronunciation Assessment [10.809349710149533]
マルチタスク学習によるGoodness Of Pronunciation機能ベースのトランスフォーマー(GOPT)を訓練する。
実験の結果,GOPTは,Librispeechで訓練された公用自動音声認識(ASR)音響モデルを用いて,音声認識762で最高の結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-06T18:07:44Z) - Look\&Listen: Multi-Modal Correlation Learning for Active Speaker
Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。
聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文 参考訳(メタデータ) (2022-03-04T09:53:19Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Learning to Select Context in a Hierarchical and Global Perspective for
Open-domain Dialogue Generation [15.01710843286394]
階層的自己保持機構と遠隔監視を備えた新しいモデルを提案し、関連する単語と発話を短距離および長距離で検出する。
私たちのモデルは、流速、コヒーレンス、および情報性の観点から他のベースラインを大幅に上回ります。
論文 参考訳(メタデータ) (2021-02-18T11:56:42Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。