論文の概要: Modeling Overlapped Speech with Shuffles
- arxiv url: http://arxiv.org/abs/2603.17769v1
- Date: Wed, 18 Mar 2026 14:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.750756
- Title: Modeling Overlapped Speech with Shuffles
- Title(参考訳): シャッフルを用いたオーバーラップ音声のモデル化
- Authors: Matthew Wiesner, Samuele Cornell, Alexander Polok, Lucas Ondel Yang, Lukáš Burget, Sanjeev Khudanpur,
- Abstract要約: シャッフルを用いて重なり合う音声など,データの並列ストリームをモデル化する。
重畳音声のアライメントと話者対応化には,シャッフル積と部分順序有限状態オートマトン (FSAs) がいかに有効かを示す。
- 参考スコア(独自算出の注目度): 57.278869801844316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to model parallel streams of data, such as overlapped speech, using shuffles. Specifically, this paper shows how the shuffle product and partial order finite-state automata (FSAs) can be used for alignment and speaker-attributed transcription of overlapped speech. We train using the total score on these FSAs as a loss function, marginalizing over all possible serializations of overlapping sequences at subword, word, and phrase levels. To reduce graph size, we impose temporal constraints by constructing partial order FSAs. We address speaker attribution by modeling (token, speaker) tuples directly. Viterbi alignment through the shuffle product FSA directly enables one-pass alignment. We evaluate performance on synthetic LibriSpeech overlaps. To our knowledge, this is the first algorithm that enables single-pass alignment of multi-talker recordings. All algorithms are implemented using k2 / Icefall.
- Abstract(参考訳): シャッフルを用いて重なり合う音声など,データの並列ストリームをモデル化する。
具体的には、重なり合う音声のアライメントと話者による書き起こしに、シャッフル積と部分順序有限状態オートマトン(FSAs)を用いる方法を示す。
我々は、これらのFSAの総スコアを損失関数として使用し、サブワード、単語、フレーズレベルにおいて重なり合うシーケンスのすべてのシリアライズをマージする訓練を行う。
グラフサイズを小さくするために、部分順序FSAを構築して時間的制約を課す。
話者属性を直接モデリング(トーケン、スピーカー)することで、話者属性に対処する。
シャッフル製品FSAを介してのビタビアライメントは、直接ワンパスアライメントを可能にする。
合成LibriSpeechオーバラップの性能評価を行った。
我々の知る限り、これはマルチトーカー記録のシングルパスアライメントを可能にする最初のアルゴリズムである。
すべてのアルゴリズムは k2 / Icefall を用いて実装される。
関連論文リスト
- Zonkey: A Hierarchical Diffusion Language Model with Differentiable Tokenization and Probabilistic Attention [0.0]
Zonkeyは階層的な拡散モデルであり、生文字から文書レベルの表現まで、完全にトレーニング可能なパイプラインを通じて制限に対処する。
コアとなるのは、確率的開始順序(BOS)決定を学習する、差別化可能なトークンである。
Zonkeyは、ノイズからコヒーレントで可変長のテキストを生成し、創発的な階層を示す。
論文 参考訳(メタデータ) (2026-01-29T14:17:37Z) - DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion [28.204167153140506]
音声トークン化器は、離散音声大言語モデルの基盤となる。
本稿では,DSA-Tokenizerを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:22:24Z) - Decoding Order Matters in Autoregressive Speech Synthesis [11.222948749269515]
自己回帰音声合成はしばしば左から右への順序を採用するが、生成順序はモデル選択である。
本研究では,段階的に位置を解き放つマスク拡散フレームワークによるデコード順序について検討する。
復号順序のランダム性は音声品質に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2026-01-13T11:21:36Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。