論文の概要: Serial-Parallel Dual-Path Architecture for Speaking Style Recognition
- arxiv url: http://arxiv.org/abs/2510.11732v1
- Date: Fri, 10 Oct 2025 03:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.011778
- Title: Serial-Parallel Dual-Path Architecture for Speaking Style Recognition
- Title(参考訳): 発話スタイル認識のためのシリアルパラレルデュアルパスアーキテクチャ
- Authors: Guojian Li, Qijie Shao, Zhixian Zhao, Shuiyuan Wang, Zhonghua Fu, Lei Xie,
- Abstract要約: 本稿では,音声スタイル認識のための新しいシリアル並列デュアルパスアーキテクチャを提案する。
提案手法はパラメータサイズを88.4%削減し,テストセット上の8種類のSSR精度を30.3%向上させる。
- 参考スコア(独自算出の注目度): 8.663308379404262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaking Style Recognition (SSR) identifies a speaker's speaking style characteristics from speech. Existing style recognition approaches primarily rely on linguistic information, with limited integration of acoustic information, which restricts recognition accuracy improvements. The fusion of acoustic and linguistic modalities offers significant potential to enhance recognition performance. In this paper, we propose a novel serial-parallel dual-path architecture for SSR that leverages acoustic-linguistic bimodal information. The serial path follows the ASR+STYLE serial paradigm, reflecting a sequential temporal dependency, while the parallel path integrates our designed Acoustic-Linguistic Similarity Module (ALSM) to facilitate cross-modal interaction with temporal simultaneity. Compared to the existing SSR baseline -- the OSUM model, our approach reduces parameter size by 88.4% and achieves a 30.3% improvement in SSR accuracy for eight styles on the test set.
- Abstract(参考訳): 話し方認識(SSR)は、話者の話し方の特徴を音声から識別する。
既存のスタイル認識アプローチは主に言語情報に依存しており、音響情報の限定的な統合により、認識精度の向上が制限されている。
音響的・言語的モダリティの融合は、認識性能を高める大きな可能性を秘めている。
本稿では,音響言語的バイモーダル情報を利用したSSRのための新しいシリアル並列デュアルパスアーキテクチャを提案する。
ASR+STYLEのシリアルパスは逐次的時間依存性を反映し,並列パスは設計したALSMを統合し,時間的同時性との相互的相互作用を容易にする。
既存のSSRベースライン(OSUMモデル)と比較して,本手法はパラメータサイズを88.4%削減し,テストセット上の8種類のSSR精度を30.3%向上させる。
関連論文リスト
- AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition [2.4842074869626396]
双方向モダリティ向上に基づく新しいAVSRフレームワークAD-AVSRを提案する。
具体的には、まず、複数の視点から音声表現を豊かにするための音声二重ストリーム符号化方式を導入する。
我々は、無関係または弱相関のオーディオ視覚対をフィルタリングするために閾値に基づく選択機構を採用する。
論文 参考訳(メタデータ) (2025-08-11T04:23:08Z) - Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。