Fugu-MT 論文翻訳(概要): Conformer-based Hybrid ASR System for Switchboard Dataset

論文の概要: Conformer-based Hybrid ASR System for Switchboard Dataset

arxiv url: http://arxiv.org/abs/2111.03442v1
Date: Fri, 5 Nov 2021 12:03:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-08 14:45:50.942087
Title: Conformer-based Hybrid ASR System for Switchboard Dataset
Title（参考訳）: スイッチボードデータセットのためのコンフォーマベースハイブリッドasrシステム
Authors: Mohammad Zeineldeen, Jingjing Xu, Christoph L\"uscher, Wilfried Michel, Alexander Gerstenberger, Ralf Schl\"uter, Hermann Ney
Abstract要約: 本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
参考スコア（独自算出の注目度）: 99.88988282353206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recently proposed conformer architecture has been successfully used for end-to-end automatic speech recognition (ASR) architectures achieving state-of-the-art performance on different datasets. To our best knowledge, the impact of using conformer acoustic model for hybrid ASR is not investigated. In this paper, we present and evaluate a competitive conformer-based hybrid model training recipe. We study different training aspects and methods to improve word-error-rate as well as to increase training speed. We apply time downsampling methods for efficient training and use transposed convolutions to upsample the output sequence again. We conduct experiments on Switchboard 300h dataset and our conformer-based hybrid model achieves competitive results compared to other architectures. It generalizes very well on Hub5'01 test set and outperforms the BLSTM-based hybrid model significantly.
Abstract（参考訳）: 最近提案されたコンバータアーキテクチャは、異なるデータセット上で最先端のパフォーマンスを達成するために、エンドツーエンドの自動音声認識(ASR)アーキテクチャに成功している。我々の知る限り、ハイブリッドASRにおけるコンフォメータ音響モデルの使用が及ぼす影響は調査されていない。本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。単語誤り率の向上と学習速度の向上を目的として,異なる訓練側面と方法を検討した。効率的なトレーニングにタイムダウンサンプリング手法を適用し,変換された畳み込みを用いて出力シーケンスを再度サンプリングする。我々はSwitchboard 300hデータセット上で実験を行い、コンバータベースのハイブリッドモデルは、他のアーキテクチャと比較して競合的な結果を得る。 Hub5'01テストセットで非常によく一般化され、BLSTMベースのハイブリッドモデルよりも大幅に優れている。

関連論文リスト

The Good, The Bad, and The Hybrid: A Reward Structure Showdown in Reasoning Models Training [0.0]
我々は、細調整された大規模言語モデルのためのハード、連続、ハイブリッドの報酬構造について研究する。離散信号と連続信号の間で遷移する適応型ハイブリッド報酬スケジューラを導入する。以上の結果から,ハイブリッド報酬構造は,純粋にハードあるいは連続的なアプローチよりも収束速度とトレーニング安定性を向上させることが示唆された。
論文参考訳（メタデータ） (2025-11-17T06:15:26Z)
LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文参考訳（メタデータ） (2025-10-01T12:52:25Z)
Multi-Armed Bandit Approach for Optimizing Training on Synthetic Data [7.603659241572307]
動的ユーザビリティ指標と組み合わせた UCB ベースのトレーニング手法を提案する。提案手法は,合成画像と対応する実・合成データセットからの低レベル・高レベル情報を統合する。提案手法は, ユーザビリティに基づいて, 合成画像のランク付けに有効な方法であることを示す。
論文参考訳（メタデータ） (2024-12-06T23:36:36Z)
Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文参考訳（メタデータ） (2024-10-11T18:16:03Z)
Test-time Training for Hyperspectral Image Super-resolution [95.38382633281398]
ハイパースペクトル画像(HSI)超解像(SR)は、まだRGB画像SRの研究に遅れを取っている。本研究では,この問題に対処するための新しいテストタイムトレーニング手法を提案する。具体的には、より正確な擬似ラベルとより正確なLR-HR関係を生成する新しい自己学習フレームワークを開発する。
論文参考訳（メタデータ） (2024-09-13T09:30:19Z)
Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets [0.0]
本稿では,DARTSのアーキテクチャパラメータに適した適応学習率スケジューリング手法を提案する。提案手法は,学習エポックに基づくアーキテクチャパラメータの学習率を動的に調整し,よく訓練された表現の破壊を防止する。
論文参考訳（メタデータ） (2024-06-11T07:32:25Z)
Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。実験結果から,本手法は既存手法よりも一貫した改善が得られた。我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文参考訳（メタデータ） (2023-11-27T06:19:50Z)
Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文参考訳（メタデータ） (2023-07-26T09:47:37Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文参考訳（メタデータ） (2021-12-02T07:26:34Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)
Distributed Training of Deep Neural Network Acoustic Models for Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文参考訳（メタデータ） (2020-02-24T19:31:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。