論文の概要: Representing Speech Through Autoregressive Prediction of Cochlear Tokens
- arxiv url: http://arxiv.org/abs/2508.11598v1
- Date: Fri, 15 Aug 2025 17:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.156982
- Title: Representing Speech Through Autoregressive Prediction of Cochlear Tokens
- Title(参考訳): 人工声道の自己回帰予測による音声の表現
- Authors: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins,
- Abstract要約: AuriStreamは生物学的にインスパイアされた音声符号化モデルである。
意味のある音素と単語表現、そして最先端の語彙意味学を学ぶ。
AuriStreamは、様々な下流のSUPERB音声タスクで競合性能を示す。
- 参考スコア(独自算出の注目度): 9.818039340781619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete \textbf{cochlear tokens}. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. AuriStream shows competitive performance on diverse downstream SUPERB speech tasks. Complementing AuriStream's strong representational capabilities, it generates continuations of audio which can be visualized in a spectrogram space and decoded back into audio, providing insights into the model's predictions. In summary, we present a two-stage framework for speech representation learning to advance the development of more human-like models that efficiently handle a range of speech-based tasks.
- Abstract(参考訳): AuriStreamは、人間の聴覚処理階層にインスパイアされた2段階のフレームワークを介して、生物学的にインスパイアされた音声の符号化モデルである。
第1段階は、生音声をヒトの人工内耳に基づく時間周波数表現に変換し、そこから個別の \textbf{cochlear tokens} を抽出する。
第2段階では、コクラートークンの上に自己回帰シーケンスモデルを適用する。
AuriStreamは意味のある音素と単語表現、そして最先端の語彙意味学を学ぶ。
AuriStreamは、様々な下流のSUPERB音声タスクで競合性能を示す。
AuriStreamの強力な表現能力を補完し、スペクトル空間で可視化してオーディオに復号化できるオーディオの継続を生成し、モデルの予測に関する洞察を提供する。
本稿では,音声表現学習のための2段階のフレームワークを提案する。
関連論文リスト
- DiffSoundStream: Efficient Speech Tokenization via Diffusion Decoding [12.05169114091718]
DiffSoundStreamは、非ストリーミングシナリオにおける音声トークン化の効率を改善するソリューションである。
実験によると、毎秒50トークンのDiffSoundStreamは標準のSoundStreamモデルと同等の音声品質を実現している。
論文 参考訳(メタデータ) (2025-06-27T16:23:07Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach [3.89476785897726]
AV特徴を組み込んだシーケンス・ツー・シーケンス(seq2seq)音声イン・ペイントモデルを導入,研究する。
提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。
論文 参考訳(メタデータ) (2024-06-02T23:51:43Z) - RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations [13.995231731152462]
本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
論文 参考訳(メタデータ) (2023-07-03T09:13:57Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。