論文の概要: Codec2Vec: Self-Supervised Speech Representation Learning Using Neural Speech Codecs
- arxiv url: http://arxiv.org/abs/2511.16639v1
- Date: Thu, 20 Nov 2025 18:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.792714
- Title: Codec2Vec: Self-Supervised Speech Representation Learning Using Neural Speech Codecs
- Title(参考訳): Codec2Vec:ニューラル音声コーデックを用いた自己監督型音声表現学習
- Authors: Wei-Cheng Tseng, David Harwath,
- Abstract要約: Codec2Vecは、離散音声単位のみに依存する最初の音声表現学習フレームワークである。
このアプローチには、データストレージと送信効率の改善、トレーニングの高速化、データプライバシの向上など、いくつかのメリットがある。
- 参考スコア(独自算出の注目度): 29.817724789807457
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in neural audio codecs have not only enabled superior audio compression but also enhanced speech synthesis techniques. Researchers are now exploring their potential as universal acoustic feature extractors for a broader range of speech processing tasks. Building on this trend, we introduce Codec2Vec, the first speech representation learning framework that relies exclusively on discrete audio codec units. This approach offers several advantages, including improved data storage and transmission efficiency, faster training, and enhanced data privacy. We explore masked prediction with various training target derivation strategies to thoroughly understand the effectiveness of this framework. Evaluated on the SUPERB benchmark, Codec2Vec achieves competitive performance compared to continuous-input models while reducing storage requirements by up to 16.5x and training time by 2.3x, showcasing its scalability and efficiency.
- Abstract(参考訳): ニューラルオーディオコーデックの最近の進歩は、優れた音声圧縮を可能にするだけでなく、音声合成技術も強化している。
研究者は現在、幅広い音声処理タスクのための普遍的な音響特徴抽出器としての可能性を模索している。
この傾向に基づいて,離散音声コーデックのみに依存する最初の音声表現学習フレームワークであるCodec2Vecを紹介する。
このアプローチには、データストレージと送信効率の改善、トレーニングの高速化、データプライバシの向上など、いくつかのメリットがある。
我々は,この枠組みの有効性を深く理解するために,様々な訓練対象の導出戦略を用いてマスク付き予測を探索する。
SUPERBベンチマークで評価されたCodec2Vecは、連続入力モデルと比較して、ストレージ要求を最大16.5倍、トレーニング時間を2.3倍に削減し、スケーラビリティと効率性を示している。
関連論文リスト
- FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [33.022035588157614]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプルとコードはhttps://lucadellalib.io/kbpscodec-web/.comで公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。