論文の概要: Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English
- arxiv url: http://arxiv.org/abs/2505.17076v1
- Date: Tue, 20 May 2025 06:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.531199
- Title: Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English
- Title(参考訳): フレームレートが音声トケナイザに及ぼす影響:マンダリンと英語を事例として
- Authors: Haoyang Zhang, Hexin Liu, Xiangyu Zhang, Qiquan Zhang, Yuchen Hu, Junqi Zhao, Fei Tian, Xuerui Yang, Eng Siong Chng,
- Abstract要約: マンダリンと英語を調べた結果,フレームレートの変動が音声のトークン化に与える影響について検討した。
我々は、異なるフレームレートで音声を符号化し、音声認識タスクにおける結果のセマンティックトークンを評価する。
- 参考スコア(独自算出の注目度): 34.41854404051737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The speech tokenizer plays a crucial role in recent speech tasks, generally serving as a bridge between speech signals and language models. While low-frame-rate codecs are widely employed as speech tokenizers, the impact of frame rates on speech tokens remains underexplored. In this study, we investigate how varying frame rates affect speech tokenization by examining Mandarin and English, two typologically distinct languages. We encode speech at different frame rates and evaluate the resulting semantic tokens in the speech recognition task. Our findings reveal that frame rate variations influence speech tokenization differently for each language, highlighting the interplay between frame rates, phonetic density, and language-specific acoustic features. The results provide insights into optimizing frame rate selection for speech tokenizers, with implications for automatic speech recognition, text-to-speech, and other speech-related applications.
- Abstract(参考訳): 音声トークン化器は近年の音声タスクにおいて重要な役割を担い、一般的には音声信号と言語モデルのブリッジとして機能する。
低フレームレートコーデックは音声トークン化装置として広く使われているが、フレームレートが音声トークンに与える影響は未解明のままである。
本研究では,異なるフレームレートが音声のトークン化にどう影響するかを,マンダリン語と英語の2つの類型的に異なる言語を用いて検討する。
我々は、異なるフレームレートで音声を符号化し、音声認識タスクにおける結果のセマンティックトークンを評価する。
その結果,フレームレートの変動が音声のトークン化に異なる影響を及ぼし,フレームレート,音声密度,言語固有の音響特徴との相互作用が強調された。
この結果から,音声認識や音声合成,その他の音声関連アプリケーションに影響を及ぼす,音声トークンのフレームレート選択の最適化に関する知見が得られた。
関連論文リスト
- Continuous Speech Tokenizer in Text To Speech [27.057221389827735]
本稿では,Cont-SPTという連続音声トークン化手法と,連続音声トークンに基づく音声合成モデルを提案する。
この結果から,連続音声認識を用いた音声モデルの方が連続性が高く,平均オピニオンスコア(MoS)が高いことがわかった。
この拡張は、周波数領域における低周波および高周波の両方にわたる連続音声認識器の情報保存率の向上に起因する。
論文 参考訳(メタデータ) (2024-10-22T15:02:37Z) - Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。
再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文 参考訳(メタデータ) (2024-07-08T08:53:26Z) - DASB -- Discrete Audio and Speech Benchmark [12.02056212008393]
我々は、様々なタスクで離散オーディオトークンをベンチマークするためのリーダーボードである、離散オーディオおよび音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現の間のパフォーマンスのギャップは依然として大きい。
論文 参考訳(メタデータ) (2024-06-20T13:23:27Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。