論文の概要: Identifying Primary Stress Across Related Languages and Dialects with Transformer-based Speech Encoder Models
- arxiv url: http://arxiv.org/abs/2505.24571v1
- Date: Fri, 30 May 2025 13:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.964953
- Title: Identifying Primary Stress Across Related Languages and Dialects with Transformer-based Speech Encoder Models
- Title(参考訳): 変圧器を用いた音声エンコーダモデルによる関連言語と方言の一次応力の同定
- Authors: Nikola Ljubešić, Ivan Porupski, Peter Rupnik,
- Abstract要約: 音声フレーム分類ヘッドを用いた事前学習型変圧器モデルの微調整手法について検討する。
私たちの実験では、クロアチア、セルビア、チャカヴィア、スロベニアでのテストセットを備えた、新しいクロアチアのトレーニングデータセットを使用しました。
複数音節の訓練語は数百語に過ぎなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automating primary stress identification has been an active research field due to the role of stress in encoding meaning and aiding speech comprehension. Previous studies relied mainly on traditional acoustic features and English datasets. In this paper, we investigate the approach of fine-tuning a pre-trained transformer model with an audio frame classification head. Our experiments use a new Croatian training dataset, with test sets in Croatian, Serbian, the Chakavian dialect, and Slovenian. By comparing an SVM classifier using traditional acoustic features with the fine-tuned speech transformer, we demonstrate the transformer's superiority across the board, achieving near-perfect results for Croatian and Serbian, with a 10-point performance drop for the more distant Chakavian and Slovenian. Finally, we show that only a few hundred multi-syllabic training words suffice for strong performance. We release our datasets and model under permissive licenses.
- Abstract(参考訳): 主ストレス識別の自動化は、意味のエンコーディングや音声理解支援におけるストレスの役割から、活発な研究分野となっている。
以前の研究は主に伝統的な音響的特徴と英語のデータセットに依存していた。
本稿では,事前学習したトランスモデルを音声フレーム分類ヘッドで微調整する手法について検討する。
私たちの実験では、クロアチア語、セルビア語、チャカヴィア方言、スロベニア語でのテストセットを備えた、新しいクロアチア語のトレーニングデータセットを使用しました。
従来の音響特徴を用いたSVM分類器と微調整音声変換器を比較して,クロアチア語とセルビア語では変圧器の優越性を実証し,より遠いチャカヴィア語とスロベニア語では10ポイントの性能低下を示す。
最後に,多音節学習語は数百語に過ぎなかった。
パーミッシブライセンスの下でデータセットとモデルをリリースします。
関連論文リスト
- Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。
本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文 参考訳(メタデータ) (2025-03-13T15:11:28Z) - Classification of Spontaneous and Scripted Speech for Multilingual Audio [9.925703861731506]
発話スタイルが音声処理研究にどのように影響するかをよりよく理解するためには,自発音声からスクリプトを識別することが不可欠である。
本稿では,様々な形式や言語にまたがってよく一般化された分類器を構築することの課題に対処する。
従来型,手作り音響,韻律的特徴から高度なオーディオトランスフォーマーまで,様々なモデルを体系的に評価する。
論文 参考訳(メタデータ) (2024-12-16T15:45:10Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Acoustic models of Brazilian Portuguese Speech based on Neural
Transformers [1.9193698747112384]
我々はトランスフォーマーニューラルネットワークを用いてブラジルポルトガル語音声の音響モデルを構築した。
トレーニング済みのトランスフォーマーニューラルネットワークを,呼吸不全の検出,性別認識,年齢グループ分類といったタスクで微調整する。
呼吸不全検出の成績は,これまでに報告された最高の結果を得た結果,このような音響モデルがバイオマーカーによる音声・バイオマーカーアプローチの有望なツールであることを示す。
論文 参考訳(メタデータ) (2023-12-14T14:16:40Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。