論文の概要: BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Supervised Speech Recognition
- arxiv url: http://arxiv.org/abs/2509.15430v1
- Date: Thu, 18 Sep 2025 21:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.901597
- Title: BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Supervised Speech Recognition
- Title(参考訳): BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Supervised Speech Recognition
- Authors: Liuyuan Jiang, Xiaodong Cui, Brian Kingsbury, Tianyi Chen, Lisha Chen,
- Abstract要約: BiRQは、BEST-RQの効率とHuBERTスタイルのラベル拡張の強化の利点を組み合わせた、双方向SSLフレームワークである。
提案手法は,960時間のLibriSpeech,150時間のAMIミーティング,5,000時間のYODASなど,さまざまなデータセットで検証する。
- 参考スコア(独自算出の注目度): 63.45645200463539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is a rich signal, and labeled audio-text pairs are costly, making self-supervised learning essential for scalable representation learning. A core challenge in speech SSL is generating pseudo-labels that are both informative and efficient: strong labels, such as those used in HuBERT, improve downstream performance but rely on external encoders and multi-stage pipelines, while efficient methods like BEST-RQ achieve simplicity at the cost of weaker labels. We propose BiRQ, a bilevel SSL framework that combines the efficiency of BEST-RQ with the refinement benefits of HuBERT-style label enhancement. The key idea is to reuse part of the model itself as a pseudo-label generator: intermediate representations are discretized by a random-projection quantizer to produce enhanced labels, while anchoring labels derived directly from the raw input stabilize training and prevent collapse. Training is formulated as an efficient first-order bilevel optimization problem, solved end-to-end with differentiable Gumbel-softmax selection. This design eliminates the need for external label encoders, reduces memory cost, and enables iterative label refinement in an end-to-end fashion. BiRQ consistently improves over BEST-RQ while maintaining low complexity and computational efficiency. We validate our method on various datasets, including 960-hour LibriSpeech, 150-hour AMI meetings and 5,000-hour YODAS, demonstrating consistent gains over BEST-RQ.
- Abstract(参考訳): 音声は豊かな信号であり、ラベル付き音声テキストペアはコストがかかるため、スケーラブルな表現学習には自己教師付き学習が不可欠である。
HuBERTで使用されるような強力なラベルは、下流のパフォーマンスを改善しますが、外部エンコーダやマルチステージパイプラインに依存しています。
We propose BiRQ, a bilevel SSL framework that a efficiency of BEST-RQ with the refinement benefit of HuBERT-style label enhancement。
中間表現はランダム射影量化器によって離散化され、強化されたラベルを生成する。一方、生の入力安定化トレーニングから直接派生したラベルをアンカーし、崩壊を防止できる。
トレーニングは、Gumbel-softmax選択を微分可能とした、効率的な一階二階最適化問題として定式化されている。
この設計は、外部ラベルエンコーダの必要性を排除し、メモリコストを削減し、エンドツーエンドで反復ラベルの洗練を可能にする。
BiRQは、複雑さと計算効率を低く保ちながら、BEST-RQよりも一貫して改善する。
我々は,960時間のLibriSpeech,150時間のAMIミーティング,5,000時間のYODASなど,さまざまなデータセットに対して本手法の有効性を検証し,BEST-RQに対する一貫した利得を示す。
関連論文リスト
- Calibrating Pre-trained Language Classifiers on LLM-generated Noisy Labels via Iterative Refinement [8.804897656598051]
そこで我々はSiDyP: Simplex Label Diffusion with Dynamic Priorを提案する。
我々のフレームワークは、ゼロショットと少数ショットのLLM生成したノイズラベルデータセットをそれぞれ平均7.21%と7.30%で微調整したBERT分類器の性能を向上させることができる。
論文 参考訳(メタデータ) (2025-05-26T08:31:55Z) - Efficient Adaptive Label Refinement for Label Noise Learning [14.617885790129336]
本稿では,不適切なラベルを回避し,クリーンなサンプルを徹底的に学習するための適応ラベル精製(ALR)を提案する。
ALRは単純で効率的であり、ノイズや補助的なデータセットに関する事前の知識を必要としない。
人工ラベルノイズ付きベンチマークデータセット(CIFAR-10/100)と固有ノイズ付き実世界のデータセット(ANIMAL-10N, Clothing1M, WebVision)を用いて、ALRの有効性を検証する。
論文 参考訳(メタデータ) (2025-02-01T09:58:08Z) - Improved Adaptive Algorithm for Scalable Active Learning with Weak
Labeler [89.27610526884496]
Weak Labeler Active Cover (WL-AC)は、要求される精度を維持しながら、クエリの複雑さを低減するために、低品質の弱いラベルを堅牢に活用することができる。
受動学習と同一の精度を維持しつつラベル数を著しく削減し, 劣化したMNISTデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2022-11-04T02:52:54Z) - Filter and evolve: progressive pseudo label refining for semi-supervised
automatic speech recognition [5.735000563764309]
低品質の擬似ラベルは、決定境界を誤認し、性能を低下させる。
本稿では,低品質な擬似ラベルをフィルタする簡易かつ効果的な手法を提案する。
LibriSpeechの実験では、これらのフィルターされたサンプルにより、洗練されたモデルによりより正確な予測が得られることが示されている。
論文 参考訳(メタデータ) (2022-10-28T16:15:58Z) - SELC: Self-Ensemble Label Correction Improves Learning with Noisy Labels [4.876988315151037]
ディープニューラルネットワークはノイズラベルを過度に適合させる傾向があり、結果として一般化性能は低下する。
ノイズラベルを段階的に補正し,モデルを改良する自己アンサンブルラベル補正法(SELC)を提案する。
SELCは、クラス条件、インスタンス依存、および実世界のラベルノイズの存在において、より有望で安定した結果を得る。
論文 参考訳(メタデータ) (2022-05-02T18:42:47Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Label Dependence-aware Sequence Generation Model for Multi-level
Implicit Discourse Relation Recognition [31.179555215952306]
暗黙の談話関係認識は、談話分析において難しいが重要な課題である。
ラベル依存型シーケンス生成モデル(LDSGM)を提案する。
ボトムアップ方向のラベル依存を利用した相互学習強化訓練法を開発した。
論文 参考訳(メタデータ) (2021-12-22T09:14:03Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。