Fugu-MT 論文翻訳(概要): SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability

論文の概要: SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability

arxiv url: http://arxiv.org/abs/2308.03266v2
Date: Wed, 16 Aug 2023 07:03:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 16:13:40.531935
Title: SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability
Title（参考訳）: SeACo-Paraformer:フレキシブルで効果的なホットワードカスタマイズ機能を備えた非自己回帰型ASRシステム
Authors: Xian Shi, Yexin Yang, Zerui Li, Shiliang Zhang
Abstract要約: フレキシブルで効果的なホットワードカスタマイズ機能を備えた新しいNARベースのASRシステムを提案する。産業用ビッグデータ実験5万時間において,提案したモデルは,カスタマイズや一般的なASRタスクにおいて,強力なベースラインを達成している。
参考スコア（独自算出の注目度）: 44.987581874942556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hotword customization is one of the important issues remained in ASR field - it is of value to enable users of ASR systems to customize names of entities, persons and other phrases. The past few years have seen both implicit and explicit modeling strategies for ASR contextualization developed. While these approaches have performed adequately, they still exhibit certain shortcomings such as instability in effectiveness. In this paper we propose Semantic-augmented Contextual-Paraformer (SeACo-Paraformer) a novel NAR based ASR system with flexible and effective hotword customization ability. It combines the accuracy of the AED-based model, the efficiency of the NAR model, and the excellent performance in contextualization. In 50,000 hours industrial big data experiments, our proposed model outperforms strong baselines in customization and general ASR tasks. Besides, we explore an efficient way to filter large scale incoming hotwords for further improvement. The source codes and industrial models proposed and compared are all opened as well as two hotword test sets.
Abstract（参考訳）: ホットワードのカスタマイズは、ASRのフィールドに残る重要な問題の1つであり、ASRシステムのユーザーがエンティティ、人、その他のフレーズの名前をカスタマイズできるようにすることに価値がある。過去数年間、ASRの文脈化のための暗黙的および明示的なモデリング戦略が開発されてきた。これらのアプローチは十分に機能しているが、有効性の不安定などいくつかの欠点がある。本稿では,フレキシブルかつ効果的なホットワードカスタマイズ機能を有する新しいnar型asrシステムであるseaco-paraformerを提案する。 AEDベースのモデルの精度、NARモデルの効率、文脈化における優れた性能を組み合わせる。産業用ビッグデータ実験5万時間において,提案したモデルは,カスタマイズや一般的なASRタスクにおいて,強力なベースラインを達成している。さらに,大規模にやってくるホットワードを効率よくフィルタリングし,さらなる改善を図る。提案・比較されたソースコードと産業モデルは、全てオープンであり、2つのホットワードテストセットがある。

関連論文リスト

Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文参考訳（メタデータ） (2026-02-17T15:31:32Z)
Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。 Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文参考訳（メタデータ） (2025-09-15T23:19:36Z)
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents [60.325553329946]
Role-Playing Language Agents (RPLA) は、現実的で魅力的な人間とコンピュータのインタラクションのために文字をシミュレートすることを目的としている。キャラクタに基づくアクト適応リワードモデルであるChARMを提案する。 RPLAに特化した最初の大規模嗜好データセットであるRoleplayPrefを紹介する。
論文参考訳（メタデータ） (2025-05-29T18:15:18Z)
Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T02:32:03Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-04-02T06:38:56Z)
SELF: Surrogate-light Feature Selection with Large Language Models in Deep Recommender Systems [51.09233156090496]
ディープレコメンデータシステムのためのSurrogatE-Light特徴選択法 SELFは、大規模言語モデルからのセマンティック推論と、代理モデルからのタスク固有の学習を統合する。実世界のレコメンデータプラットフォームからの3つの公開データセットに関する総合的な実験は、SELFの有効性を検証する。
論文参考訳（メタデータ） (2024-12-11T16:28:18Z)
CTC-Assisted LLM-Based Contextual ASR [40.6542391788212]
効率的なフィルタリングアルゴリズムを用いたCTC支援LLM型コンテキストASRモデルを提案する。我々のモデルは、稀に長い尾の単語を認識することを目的とした、Librispeechテストクリーンおよびテストサブセットにおいて1.27%/3.67%のWER/B-WERと2.72%/8.02%のWERを達成している。
論文参考訳（メタデータ） (2024-11-10T11:47:50Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。 CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文参考訳（メタデータ） (2024-05-17T07:43:25Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文参考訳（メタデータ） (2023-06-16T13:04:56Z)
DSTEA: Improving Dialogue State Tracking via Entity Adaptive Pre-training [14.494088455520378]
対話状態追跡(DST)は、ユーザとシステム発話を包括的に解釈するために重要である。 DSTEAを提案し、Entity Adaptiveによる事前学習による対話状態追跡を改善する。
論文参考訳（メタデータ） (2022-07-08T12:27:19Z)
Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文参考訳（メタデータ） (2022-06-29T13:12:46Z)
Offline RL for Natural Language Generation with Implicit Language Q Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。 ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文参考訳（メタデータ） (2022-06-05T18:38:42Z)
Contextual Adapters for Personalized Speech Recognition in Neural Transducers [16.628830937429388]
ニューラルトランスデューサに基づくASRモデルにおいて,パーソナライズのための学習用ニューラルネットワークアダプタを提案する。我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルで作業するための柔軟性も備えています。
論文参考訳（メタデータ） (2022-05-26T22:46:28Z)
Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文参考訳（メタデータ） (2020-06-04T04:37:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。