論文の概要: TARQ: Tail-Aware Reconstruction Quantization for Rare-Word Robust Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2605.27808v1
- Date: Wed, 27 May 2026 00:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.659273
- Title: TARQ: Tail-Aware Reconstruction Quantization for Rare-Word Robust Automatic Speech Recognition
- Title(参考訳): TARQ:希少単語ロバスト音声認識のためのタイルアウェア再構成量子化
- Authors: Xinyu Wang, Ziyu Zhao, Ke Bai, Silin Meng, Dongming Shen, Xiao-Wen Chang, Yixuan HE,
- Abstract要約: textbfTail-Aware Reconstruction Quantization (TARQ)は、レキシカルテールにキャリブレーションをシフトするラベルフリーのPTQフレームワークである。
TARQは、エンティティラベル、キュレートされたキャリブレーションセット、バリデーションの復号化、追加のトレーニングを必要としない。
W4G128の8つのASRバックボーンと6つのデータセットに対して、TARQはアグリゲート-WERレグレッションなしで平均レアなtextbfWord textbfError textbfRate(rare-WER)を改善している。
- 参考スコア(独自算出の注目度): 11.986283041108692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-aware post-training quantization (PTQ) minimizes a per-token reconstruction loss on a small calibration corpus, implicitly weighting positions by their empirical frequency. For \textbf{A}utomatic \textbf{S}peech \textbf{R}ecognition (ASR), this misaligns with tail-sensitive risk: names, numerals, and domain-specific words receive proportionally little calibration mass. We propose \textbf{Tail-Aware Reconstruction Quantization} (\TARQ), a label-free PTQ framework that shifts calibration toward the lexical tail via \textbf{\rareBAL}, a closed-form per-Linear-layer rule equalizing common/tail mass, paired with a metric-consistent residual correction. \TARQ\ requires no entity labels, no curated calibration set, no validation decoding, and no additional training. Across eight ASR backbones and six datasets at W4G128, \TARQ\ improves mean rare-\textbf{W}ord \textbf{E}rror \textbf{R}ate (rare-WER) without an aggregate-WER regression, achieves the lowest cross-corpus rare-WER swing among compared methods, and transfers to entity-rich benchmarks (ProfASR, ContextASR-Speech-En) without entity supervision.
- Abstract(参考訳): PTQ(Data-Aware post-training Quantization)は、小さなキャリブレーションコーパス上のトーケン毎の再構成損失を最小限に抑え、その経験周波数によって暗黙的に位置を重み付けする。
textbf{A}utomatic \textbf{S}peech \textbf{R}ecognition (ASR) では、名前、数字、ドメイン固有の単語は比例的にキャリブレーション質量が小さい。
そこで本稿では, 正則化をレキシカルテールにシフトするラベルフリーPTQフレームワークである \textbf{Tail-Aware Reconstruction Quantization} (\TARQ) を提案する。
TARQ\は、エンティティラベル、キュレートされたキャリブレーションセット、バリデーションデコード、追加のトレーニングを必要としない。
W4G128の8つのASRバックボーンと6つのデータセットにより、平均的なレア-\textbf{W}ord \textbf{E}rror \textbf{R}ate (rare-WER)がアグリゲート-WERレグレッションなしで改善され、比較したメソッドの中で最低のクロスコーパスレア-WERスウィングを実現し、エンティティリッチベンチマーク(ProfASR、ContextASR-Speech-En)にエンティティ管理なしで転送される。
関連論文リスト
- Towards Joint Quantization and Token Pruning of Vision-Language Models [53.978753457744055]
トークンプルーニングと低ビット量子化は、推論コストの削減を補完する。
我々は、低ビット推論と決定論的視覚トーケンプルーニングを統一する協調量子化&プルーニングフレームワークを提案する。
標準VLMベンチマークの実験では、同じ低ビット状態下でのステージワイドベースラインよりもロバスト性が改善された。
論文 参考訳(メタデータ) (2026-04-19T08:18:29Z) - LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs [61.06744611795341]
医用視覚言語モデル(VLM)は医用画像の強力なゼロショット認識器である。
本研究では,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ(texttttextbfLATA,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ)を提案する。
texttttextbfLATAは交換性を損なうことなくゼロショット予測をシャープにする。
論文 参考訳(メタデータ) (2026-02-19T16:45:38Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - HyDRA: Hybrid Denoising Regularization for Measurement-Only DEQ Training [2.3995514936240503]
ディープ平衡モデル(Deep Equilibrium、DEQ)は成功したが、典型的には教師付きペア(mathbfx,mathbfy)を必要とする。
我々は、DECトレーニングのための測定専用フレームワークであるHybrid Denoising Regularization Adaptation(Hybrid Denoising Regularization Adaptation)を導入する。
スパースビューCTの実験は、競争力のある再構成品質と高速な推論を示す。
論文 参考訳(メタデータ) (2026-01-03T16:28:05Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Post-Hoc Split-Point Self-Consistency Verification for Efficient, Unified Quantification of Aleatoric and Epistemic Uncertainty in Deep Learning [5.996056764788456]
不確実性定量化(UQ)は、信頼できる深層学習には不可欠であるが、既存の手法は計算集約的であるか、タスク固有の部分的な見積もりのみを提供する。
本研究では,事前訓練したモデルの変更や再訓練を伴わずに,アレタリックおよびてんかんの不確実性を共同でキャプチャするポストホック・シングルフォワード・パス・フレームワークを提案する。
提案手法は,EmphSplit-Point Analysis (SPA) を用いて,予測残差を上下サブセットに分解し,各側でEmphMean Absolute Residuals (MAR) を演算する。
論文 参考訳(メタデータ) (2025-09-16T17:16:01Z) - Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - Retraining with Predicted Hard Labels Provably Increases Model Accuracy [77.71162068832108]
リトレーニングは、与えられた(ノイズの多い)ラベルで最初にトレーニングすることで得られる人口の精度を向上させることができる。
予測ラベルが与えられたラベルにマッチするサンプルを選択的に再トレーニングすることで、余分なプライバシコストを伴わずにラベルDPトレーニングを大幅に改善できることを実証的に示す。
論文 参考訳(メタデータ) (2024-06-17T04:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。