論文の概要: Multi-granularity Interactive Attention Framework for Residual Hierarchical Pronunciation Assessment
- arxiv url: http://arxiv.org/abs/2601.01745v1
- Date: Mon, 05 Jan 2026 02:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.738909
- Title: Multi-granularity Interactive Attention Framework for Residual Hierarchical Pronunciation Assessment
- Title(参考訳): 残差階層的発音評価のための多粒性対話型アテンションフレームワーク
- Authors: Hong Han, Hao-Chen Pei, Zhao-Zheng Nie, Xin Luo, Xin-Shun Xu,
- Abstract要約: 本稿では,粒度をまたいだ双方向モデリングが可能な,新しい階層型対話手法HIAを提案する。
また,音響階層をモデル化する際の特徴忘れ問題を軽減するために,残像階層構造を提案する。
私たちのモデルは、既存の最先端の手法より総合的に先行しています。
- 参考スコア(独自算出の注目度): 18.97451964522765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic pronunciation assessment plays a crucial role in computer-assisted pronunciation training systems. Due to the ability to perform multiple pronunciation tasks simultaneously, multi-aspect multi-granularity pronunciation assessment methods are gradually receiving more attention and achieving better performance than single-level modeling tasks. However, existing methods only consider unidirectional dependencies between adjacent granularity levels, lacking bidirectional interaction among phoneme, word, and utterance levels and thus insufficiently capturing the acoustic structural correlations. To address this issue, we propose a novel residual hierarchical interactive method, HIA for short, that enables bidirectional modeling across granularities. As the core of HIA, the Interactive Attention Module leverages an attention mechanism to achieve dynamic bidirectional interaction, effectively capturing linguistic features at each granularity while integrating correlations between different granularity levels. We also propose a residual hierarchical structure to alleviate the feature forgetting problem when modeling acoustic hierarchies. In addition, we use 1-D convolutional layers to enhance the extraction of local contextual cues at each granularity. Extensive experiments on the speechocean762 dataset show that our model is comprehensively ahead of the existing state-of-the-art methods.
- Abstract(参考訳): 自動発音評価は,コンピュータによる発音訓練システムにおいて重要な役割を担っている。
複数の発音タスクを同時に実行できるため、マルチアスペクト多言語発音評価手法は徐々に注目され、シングルレベルモデリングタスクよりも優れたパフォーマンスを実現している。
しかし, 音素, 単語, 発話レベルの双方向相互作用が欠如しており, 音響的構造的相関が不十分である。
この問題に対処するために,粒度にまたがる双方向モデリングが可能な,新しい階層型対話手法HIAを提案する。
HIAの中核として、Interactive Attention Moduleは、動的双方向相互作用を実現するための注意機構を活用し、異なる粒度レベル間の相関を統合しながら、各粒度における言語的特徴を効果的にキャプチャする。
また,音響階層をモデル化する際の特徴忘れ問題を軽減するために,残像階層構造を提案する。
さらに、1次元畳み込み層を用いて各粒度における局所的な文脈的手がかりの抽出を強化する。
speechocean762データセットの大規模な実験により、我々のモデルは既存の最先端手法よりも総合的に先行していることが示された。
関連論文リスト
- MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical Neural Modeling [14.953695326450001]
対話型階層型ニューラルアーキテクチャを用いた多面発音フィードバックモデルであるMuFFINを紹介する。
特徴空間における音素間のニュアンスな区別をよりよく捉えるために、新しい音素コントラストの順序規則化機構が提案される。
本研究では,音素固有の変化を伴う音素の出力を摂動させるための,シンプルで効果的な学習目標を設計する。
論文 参考訳(メタデータ) (2025-10-06T15:54:55Z) - Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - Boosting Neural Language Inference via Cascaded Interactive Reasoning [38.125341836302525]
自然言語推論(NLI)は、与えられた前提と仮説の間の論理的関係の確認に焦点を当てている。
この課題は、多様な言い回し、意味的複雑さ、文脈的ニュアンスといった固有の言語的特徴により、重大な課題を提起する。
NLIにおける深い意味理解のために設計された新しいアーキテクチャであるCascaded Interactive Reasoning Network (CIRN)を紹介する。
論文 参考訳(メタデータ) (2025-05-10T11:37:15Z) - Multi-Modal Self-Supervised Semantic Communication [52.76990720898666]
本稿では,マルチモーダルな自己教師型学習を活用し,タスク非依存の特徴抽出を強化するマルチモーダルセマンティックコミュニケーションシステムを提案する。
提案手法は,訓練関連通信オーバーヘッドを最小限に抑えつつ,モダリティの不変性とモダリティ特有の特徴の両方を効果的に捉えている。
この結果は、セマンティックコミュニケーションにおけるマルチモーダルな自己教師型学習の利点を浮き彫りにし、より効率的でスケーラブルなエッジ推論システムへの道を開いた。
論文 参考訳(メタデータ) (2025-03-18T06:13:02Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Hierarchical Pronunciation Assessment with Multi-Aspect Attention [3.6825890616838066]
マルチアスペクト注意(HiPAMA)モデルを用いた階層的発音評価を提案する。
HiPAMAは言語構造を直接捉えるための粒度レベルを階層的に表現し、多視点の注意を喚起する。
実験結果の顕著な改善は,HiPAMAの堅牢性を示している。
論文 参考訳(メタデータ) (2022-11-15T12:49:35Z) - HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly
Supervised Relation Extraction [24.853265244512954]
雑音の少ない文を抽出するための階層的コントラスト学習フレームワーク (HiCLRE) を提案する。
具体的には,3段階の階層型学習フレームワークを提案する。
実験により、HiCLREは様々なメインストリームDSREデータセットにおいて、強いベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-27T12:48:26Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。