論文の概要: Real-World En Call Center Transcripts Dataset with PII Redaction
- arxiv url: http://arxiv.org/abs/2507.02958v1
- Date: Mon, 30 Jun 2025 03:41:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.471544
- Title: Real-World En Call Center Transcripts Dataset with PII Redaction
- Title(参考訳): 実世界のコールセンターがPIIリアクションでデータセットを更新
- Authors: Ha Dao, Gaurav Chawla, Raghu Banda, Caleb DeLeeuw,
- Abstract要約: CallCenterENは、大規模な(91,706の会話で、10448のオーディオ時間に対応する)実世界の英語コールセンターのトランスクリプトデータセットである。
これは、この種のオープンソースコールセンタの書き起こしデータとしては、これまでで最大のリリースである。
データセットには、インド、フィリピン、米国からのアクセントとともに、エージェントと顧客の間のインバウンドおよびアウトバウンドコールが含まれている。
- 参考スコア(独自算出の注目度): 0.8077903172320928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce CallCenterEN, a large-scale (91,706 conversations, corresponding to 10448 audio hours), real-world English call center transcript dataset designed to support research and development in customer support and sales AI systems. This is the largest release to-date of open source call center transcript data of this kind. The dataset includes inbound and outbound calls between agents and customers, with accents from India, the Philippines and the United States. The dataset includes high-quality, PII-redacted human-readable transcriptions. All personally identifiable information (PII) has been rigorously removed to ensure compliance with global data protection laws. The audio is not included in the public release due to biometric privacy concerns. Given the scarcity of publicly available real-world call center datasets, CallCenterEN fills a critical gap in the landscape of available ASR corpora, and is released under a CC BY-NC 4.0 license for non-commercial research use.
- Abstract(参考訳): 顧客サポートおよび販売AIシステムの研究開発を支援するために設計された,大規模な(10448オーディオ時間に対応する91,706会話)実世界の英語コールセンタ転写データセットであるCallCenterENを紹介した。
これは、この種のオープンソースコールセンタの書き起こしデータとしては、これまでで最大のリリースである。
データセットには、インド、フィリピン、米国からのアクセントとともに、エージェントと顧客の間のインバウンドおよびアウトバウンドコールが含まれている。
データセットには、高品質で、PII-reacted human-readable transcriptionsが含まれている。
個人識別可能なすべての情報(PII)は、グローバルデータ保護法に準拠するために厳格に削除されている。
生体認証のプライバシー上の懸念から、オーディオは公開リリースには含まれていない。
公開されている実世界のコールセンターデータセットが不足しているため、CallCenterENは利用可能なASRコーパスのランドスケープに重大なギャップを埋め、商用以外の研究のためにCC BY-NC 4.0ライセンスでリリースされている。
関連論文リスト
- How Sovereign Is Sovereign Compute? A Review of 775 Non-U.S. Data Centers [0.0]
本稿は、データセンター運営者の国籍のため、データセンターが外国の法当局の対象になる頻度を見積もる。
米国企業は、投資価値によって重み付けされた場合、データセットで米国以外のすべてのデータセンタープロジェクトの48%を運用しています。
論文 参考訳(メタデータ) (2025-07-30T22:58:42Z) - IndieFake Dataset: A Benchmark Dataset for Audio Deepfake Detection [0.4451479907610763]
Deepfake技術は、AIアシスタント、音声障害のアクセシビリティ向上、エンターテイメントの向上などのメリットを提供する。
また、セキュリティ、プライバシー、およびデジタルコミュニケーションに対する信頼に重大なリスクをもたらす。
既存のデータセットには多様な民族的アクセントがなく、現実世界のシナリオでは不十分である。
この研究はインディーフェイクデータセット(IFD)を導入し、インド語を話す50人の英語話者から27.17時間のボナフィドとディープフェイクのオーディオを収録した。
論文 参考訳(メタデータ) (2025-06-23T18:10:06Z) - Code-Switched Urdu ASR for Noisy Telephonic Environment using Data
Centric Approach with Hybrid HMM and CNN-TDNN [0.0]
ウルドゥー語は世界で10番目に広く話されている言語であり、世界中で231,295,440が今もASRの資源制約言語として残っている。
本稿では,雑音の多いコールセンタ環境下で,リソース効率の良い音声認識/音声音声テキストシステムの実装フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-07-24T13:04:21Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - TGDataset: Collecting and Exploring the Largest Telegram Channels Dataset [57.2282378772772]
本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。
我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。
生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
論文 参考訳(メタデータ) (2023-03-09T15:42:38Z) - Information Extraction and Human-Robot Dialogue towards Real-life Tasks:
A Baseline Study with the MobileCS Dataset [52.22314870976088]
SereTODチャレンジは、実際のユーザとChina Mobileのカスタマーサービススタッフの実際のダイアログ書き起こしで構成されるMobileCSデータセットを編成してリリースする。
MobileCSデータセットに基づいて、SereTODチャレンジには2つのタスクがあり、対話システム自体の構築を評価するだけでなく、ダイアログの書き起こしからの情報も抽出する。
本稿では主に,MobileCSデータセットを用いた2つのタスクのベースラインスタディを示す。
論文 参考訳(メタデータ) (2022-09-27T15:30:43Z) - Developing a Production System for Purpose of Call Detection in Business
Phone Conversations [1.4450257955652834]
本稿では,英語のビジネスコール記述文中のPurpose of Call文をリアルタイムに検出する商用システムの実装について述べる。
本稿では,一連のルールからニューラルモデルへブートストラップすることで,豊富なトレーニングデータを収集する手法について議論する。
このモデルは実生活データでテストした場合、様々なタイプのビジネスコールで平均88.6 F1を達成し、推論時間も低い。
論文 参考訳(メタデータ) (2022-05-13T21:45:54Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - The People's Speech: A Large-Scale Diverse English Speech Recognition
Dataset for Commercial Usage [1.5213617014998604]
このデータセットでトレーニングされたモデルは、Librispeechのテストクリーンテストセット上で9.98%のワードエラー率を達成する。
本稿では,大規模機械学習コーパスの作成に伴う法的・倫理的問題について論じる。
論文 参考訳(メタデータ) (2021-11-17T19:14:40Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z) - ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic
Speech Recognition of Contact Centers [23.076908473357577]
我々は,11,000人以上の目標志向の対話シナリオの下で,韓国の大規模音声コーパスを導入する。
ClovaCallは、レストラン予約ドメインで約6万対の短い文とそれに対応する発声を含む。
2つの標準ASRモデルを用いて、集中的な実験によりデータセットの有効性を検証した。
論文 参考訳(メタデータ) (2020-04-20T15:12:29Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。