論文の概要: Test-Time Compute Scaling for ASR with Depth-Conditioned Looped Transformers
- arxiv url: http://arxiv.org/abs/2606.04678v1
- Date: Wed, 03 Jun 2026 10:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.667844
- Title: Test-Time Compute Scaling for ASR with Depth-Conditioned Looped Transformers
- Title(参考訳): 深絞りループ変換器を用いたASRの試験時間計算スケーリング
- Authors: Yacouba Kaloga, Shashi Kumar, Shakeel A. Sheikh, Driss Khalil, Petr Motlicek, Ina Kodrasi,
- Abstract要約: 我々は、再帰エンコーダ深さを制御可能なテスト時間計算軸に変換する、深さ条件付きループ変換器 LARM を導入する。
LibriSpeechでは、推論ループの数が増加するにつれて、LARMはWERを改善している。
この結果から, 自動回帰言語モデル推論から連続非自己回帰音声認識まで, テストタイムの計算スケーリングが拡張できることが示唆された。
- 参考スコア(独自算出の注目度): 13.254740124473935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end ASR systems typically use fixed-depth acoustic encoders at inference, making it difficult to trade additional test-time computation for improved recognition without training a larger model. A natural approach is to reuse a shared Transformer block recurrently, but we find that naive looping does not fully exploit additional recurrent compute. We introduce LARM, a depth-conditioned looped Transformer that turns recurrent encoder depth into a controllable test-time compute axis. LARM combines sparse CTC checkpoints, supervision-clock embeddings, FiLM depth conditioning, and delayed soft-posterior feedback. These components structure the loop into recognition checkpoints separated by latent refinement phases and allow shared weights to specialize across recurrent steps. On LibriSpeech, LARM improves WER as the number of inference loops increases and achieves performance competitive with deeper unshared-parameter baselines. Our results show that test-time compute scaling can extend beyond autoregressive language-model reasoning to continuous non-autoregressive speech recognition.
- Abstract(参考訳): エンド・ツー・エンドのASRシステムは通常、推測時に固定深度音響エンコーダを使用するため、より大きなモデルを訓練することなく、認識を改善するために追加のテスト時間計算を交換することは困難である。
自然なアプローチは共有トランスフォーマーブロックをリカレントに再利用することである。
我々は、再帰エンコーダ深さを制御可能なテスト時間計算軸に変換する、深さ条件付きループ変換器 LARM を導入する。
LARMは、スパースCTCチェックポイント、監督時間埋め込み、FiLM深度条件付け、遅延軟後フィードバックを組み合わせている。
これらのコンポーネントはループを遅延精製フェーズによって分離された認識チェックポイントに構成し、共有重み付けを繰り返しステップ間で専門化することができる。
LibriSpeechでは、推論ループの数が増えるにつれて、LARMはWERを改善し、より深い未共有パラメータベースラインと競合するパフォーマンスを実現する。
その結果, 自動回帰言語モデル推論から連続非自己回帰音声認識まで, テストタイム・コンピューティング・スケーリングが拡張可能であることがわかった。
関連論文リスト
- Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior [107.2098567818173]
Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。
LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
論文 参考訳(メタデータ) (2026-05-26T10:10:26Z) - DeCoDrift: Stabilizing Decoder Coupling in Closed-Loop Foundation Segmentation [0.431493144418712]
フィードバックループは、マスクデコーダのクロスアテンションがターゲットオブジェクトとのアライメントを徐々に失い、繰り返しにわたってエラーが蓄積されるような、以前見過ごされた障害モード、デコーダ結合ドリフトを誘導できることを示す。
DeCoDriftは、トレーニング不要な推論時間安定化フレームワークで、更新の速やかな制限とイテレーション間のデコーダ結合の保存を行う。
論文 参考訳(メタデータ) (2026-05-25T11:41:21Z) - LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models [35.78769938627291]
我々は、標準の事前学習 LLM をループ化アーキテクチャに変換する後トレーニングフレームワークである textbfLooped Depth Up-Scaling (LoopUS) を導入する。
LoopUS は事前訓練された LLM をエンコーダ、ループ推論ブロック、デコーダに再キャストする。
これらのメカニズムは、標準的な非ループモデルからループ形式に変換し、計算ボトルネックと表現崩壊の両方に対して安定化する。
論文 参考訳(メタデータ) (2026-05-10T11:05:20Z) - TempoNet: Slack-Quantized Transformer-Guided Reinforcement Scheduler for Adaptive Deadline-Centric Real-Time Dispatchs [8.818252253980985]
TempoNetは、置換不変トランスフォーマーと深いQ近似を組み合わせた強化学習スケジューラである。
ブロックワイズのトップk選択と局所性に敏感なチャンキングを備えた遅延対応スパースアテンションスタックは、順序のないタスクセットに対するグローバルな推論を可能にする。
論文 参考訳(メタデータ) (2026-02-20T09:56:23Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - DeepCoT: Deep Continual Transformers for Real-Time Inference on Data Streams [63.27233749591346]
トランスフォーマーベースのモデルは、ますます複雑なタスクに取り組むために、そのサイズとパラメータ数を劇的に増加させてきた。
ストリームデータ推論は通常、スライディング時間ウィンドウ上で実行され、非常に冗長な計算に繋がる。
提案するDeep Continual Transformer(DeepCoT)は冗長性のないエンコーダのみのモデルであり,最小限の変更で既存のディープエンコーダアーキテクチャに適用できる。
論文 参考訳(メタデータ) (2025-11-21T16:15:43Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Lightweight and Flexible Deep Equilibrium Learning for CSI Feedback in
FDD Massive MIMO [13.856867175477042]
広帯域多重出力(MIMO)システムでは、ダウンリンクチャネル状態情報(CSI)をベースステーション(BS)に送信する必要がある。
本稿では,深層平衡モデルを用いた軽量で柔軟な深層学習に基づくCSIフィードバック手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T05:53:09Z) - Latent Template Induction with Gumbel-CRFs [107.17408593510372]
文生成のための潜在テンプレートを推論するための構造化変分オートエンコーダについて検討する。
構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習することを示す。
論文 参考訳(メタデータ) (2020-11-29T01:00:57Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。