論文の概要: Weak Supervision Techniques towards Enhanced ASR Models in Industry-level CRM Systems
- arxiv url: http://arxiv.org/abs/2507.16843v1
- Date: Sun, 20 Jul 2025 03:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.677968
- Title: Weak Supervision Techniques towards Enhanced ASR Models in Industry-level CRM Systems
- Title(参考訳): 産業レベルのCRMシステムにおけるASRモデル強化のための弱スーパービジョン技術
- Authors: Zhongsheng Wang, Sijie Wang, Jia Wang, Yung-I Liang, Yuxi Zhang, Jiamou Liu,
- Abstract要約: 本稿では,業界固有の音声認識モデルを微調整する手法を提案する。
実験結果から,本手法はASRモデルの重要な補助的役割を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 12.013157104301214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the design of customer relationship management (CRM) systems, accurately identifying customer types and offering personalized services are key to enhancing customer satisfaction and loyalty. However, this process faces the challenge of discerning customer voices and intentions, and general pre-trained automatic speech recognition (ASR) models make it difficult to effectively address industry-specific speech recognition tasks. To address this issue, we innovatively proposed a solution for fine-tuning industry-specific ASR models, which significantly improved the performance of the fine-tuned ASR models in industry applications. Experimental results show that our method substantially improves the crucial auxiliary role of the ASR model in industry CRM systems, and this approach has also been adopted in actual industrial applications.
- Abstract(参考訳): CRMシステムの設計においては、顧客タイプを正確に識別し、パーソナライズされたサービスを提供することが顧客満足度と忠誠度を高める鍵となる。
しかし、このプロセスは顧客の声や意図を識別する難しさに直面しており、一般的な事前学習型音声認識(ASR)モデルは、業界固有の音声認識タスクに効果的に対処することが困難である。
この問題に対処するため,我々は,業界アプリケーションにおける微調整型ASRモデルの性能を大幅に向上させる,細調整型ASRモデルのためのソリューションを革新的に提案した。
実験結果から,本手法は産業CRMシステムにおけるASRモデルの重要な補助的役割を著しく改善し,本手法が産業応用にも採用されていることが明らかとなった。
関連論文リスト
- Reasoner for Real-World Event Detection: Scaling Reinforcement Learning via Adaptive Perplexity-Aware Sampling Strategy [15.2198304195864]
本稿では,異常事象検出のための適応パープレキシティ・アウェア強化学習(APARL)フレームワークを提案する。
APARLはデュアルループ動的カリキュラム学習アーキテクチャを導入し、モデルがより困難なサンプルに徐々にフォーカスできるようにする。
本モデルでは, 平均17.19%, 平均9.59%, 平均9.59%のF1値を得た。
論文 参考訳(メタデータ) (2025-07-02T03:26:02Z) - MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR [59.83547898874152]
本稿では,自己教師付き学習と半教師付き技術を統合する,サンプル効率のよい2段階適応手法を提案する。
MSDAは、ASRモデルの堅牢性と一般化を強化するように設計されている。
本稿では,メタPLがASRタスクに効果的に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-05-30T14:46:05Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。
そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T06:32:31Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - PI-Whisper: Designing an Adaptive and Incremental Automatic Speech Recognition System for Edge Devices [20.02713632761184]
本稿では,話者の特徴をリアルタイムに識別し,認識能力を適応的に向上する新しいASRシステムであるPI-Whisperを提案する。
PI-Whisperは最先端の精度を実現し、ワードエラー率(WER)を基準値に対して最大13.7%削減し、計算資源に対して線形にスケーリングする。
論文 参考訳(メタデータ) (2024-06-21T21:58:37Z) - SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and
Effective Hotword Customization Ability [41.14282471650695]
フレキシブルで効果的なホットワードカスタマイズ機能を備えた新しいNARベースのASRシステムSeACo-Paraformer(SeACo-Paraformer)を提案する。
AEDベースのモデルの精度、NARモデルの効率、そして優れたパフォーマンスの明示的なカスタマイズ能力の利点を持っている。
論文 参考訳(メタデータ) (2023-08-07T03:12:27Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。