論文の概要: Do Neural Codecs Generalize? A Controlled Study Across Unseen Languages and Non-Speech Tasks
- arxiv url: http://arxiv.org/abs/2601.12205v1
- Date: Sun, 18 Jan 2026 00:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.504531
- Title: Do Neural Codecs Generalize? A Controlled Study Across Unseen Languages and Non-Speech Tasks
- Title(参考訳): ニューラルコーデックは一般化されるか? 未知の言語と非音声タスク間の制御された研究
- Authors: Shih-Heng Wang, Jiatong Shi, Jinchuan Tian, Haibin Wu, Shinji Watanabe,
- Abstract要約: 本稿では、ニューラルオーディオコーデック(NAC)の一般化能力の3つの重要かつ未解明な側面について検討する。
我々は厳格に制御された構成を用いてNACをスクラッチからトレーニングし、公正な比較を可能にするために事前学習データを慎重にキュレートする。
以上の結果から,NACは未学習言語への一般化が可能であり,非音声タスクにおける音声のみのNACは劣化した性能を示し,非音声タスクにおける非音声データの導入は音声タスクにおける同等のパフォーマンスを維持しつつ,非音声タスクにおけるパフォーマンスを向上させることが示唆された。
- 参考スコア(独自算出の注目度): 72.09833675298016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates three crucial yet underexplored aspects of the generalization capabilities of neural audio codecs (NACs): (i) whether NACs can generalize to unseen languages during pre-training, (ii) whether speech-only pre-trained NACs can effectively generalize to non-speech applications such as environmental sounds, music, and animal vocalizations, and (iii) whether incorporating non-speech data during pre-training can improve performance on both speech and non-speech tasks. Existing studies typically rely on off-the-shelf NACs for comparison, which limits insight due to variations in implementation. In this work, we train NACs from scratch using strictly controlled configurations and carefully curated pre-training data to enable fair comparisons. We conduct a comprehensive evaluation of NAC performance on both signal reconstruction quality and downstream applications using 11 metrics. Our results show that NACs can generalize to unseen languages during pre-training, speech-only pre-trained NACs exhibit degraded performance on non-speech tasks, and incorporating non-speech data during pre-training improves performance on non-speech tasks while maintaining comparable performance on speech tasks.
- Abstract(参考訳): 本稿では、ニューラルオーディオコーデック(NAC)の一般化能力の3つの重要かつ未解明な側面について検討する。
(i)NACが事前学習中に見知らぬ言語に一般化できるかどうか。
(二)環境音、音楽、動物の発声等の非音声アプリケーションに音声のみのNACが効果的に一般化できるか否か。
三 事前学習中に非音声データを組み込むことで、音声と非音声の両方の性能を向上させることができるか。
既存の研究は通常、既成のNACを比較に頼り、実装のバリエーションによる洞察を制限している。
本研究では,厳密に制御された構成を用いてNACをスクラッチからトレーニングし,公正な比較を可能にするために事前学習データを慎重にキュレートする。
11の指標を用いて信号再構成品質と下流アプリケーションの両方でNAC性能を総合的に評価する。
以上の結果から,NACは未学習言語への一般化が可能であり,非音声タスクにおける音声のみのNACは劣化した性能を示し,非音声タスクにおける非音声データの導入は音声タスクにおける同等のパフォーマンスを維持しつつ,非音声タスクにおけるパフォーマンスを向上させることが示唆された。
関連論文リスト
- Data-Centric Lessons To Improve Speech-Language Pretraining [28.052057327597936]
Spoken Question-Answering (SQA)は、有用な対話型人工知能システムのためのコア機能である。
我々は、言語事前学習データの基本となる3つの研究課題に焦点をあてる。
論文 参考訳(メタデータ) (2025-10-22T17:34:59Z) - Unsupervised Speech Enhancement using Data-defined Priors [15.704587282459315]
教師なし音声強調のための新しいデュアルブランチエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,教師なし音声強調手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-09-26T21:16:08Z) - Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Instance Regularization for Discriminative Language Model Pre-training [108.41891836796366]
本研究は,言語モデル事前学習における劣化文から原文を復元する複雑性を推定することを提案する。
自然言語理解と読解のベンチマークによる実験結果から,本手法は事前学習の効率,有効性,堅牢性を向上することが示された。
論文 参考訳(メタデータ) (2022-10-11T14:16:37Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - MetricGAN-U: Unsupervised speech enhancement/ dereverberation based only
on noisy/ reverberated speech [28.012465936987013]
本稿では,従来の教師なし学習から制約を解放するMetricGAN-Uを提案する。
MetricGAN-Uでは、非侵襲的な音声品質指標を最適化することにより、モデルを訓練するためにノイズの多い音声のみが必要となる。
その結果,MetricGAN-Uは主観的指標と主観的指標の両方においてベースラインを上回った。
論文 参考訳(メタデータ) (2021-10-12T10:01:32Z) - Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training [66.39561682517741]
unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。
UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。
本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
論文 参考訳(メタデータ) (2020-02-28T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。