論文の概要: Developing Speech Processing Pipelines for Police Accountability
- arxiv url: http://arxiv.org/abs/2306.06086v1
- Date: Fri, 9 Jun 2023 17:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:00:56.574968
- Title: Developing Speech Processing Pipelines for Police Accountability
- Title(参考訳): 警察アカウンタビリティのための音声処理パイプラインの開発
- Authors: Anjalie Field, Prateek Verma, Nay San, Jennifer L. Eberhardt, Dan
Jurafsky
- Abstract要約: 警察のボディウーンのカメラは、警察の責任と透明性を向上する可能性がある。しかし実際には、何億時間もの映像がレビューされることはない。
本稿では,交通停止時の映像におけるASRと役員による音声検出に着目し,事前学習型大規模音声モデルの有効性について検討する。
提案するパイプラインには、トレーニングデータアライメントとフィルタリング、リソース制約による微調整、完全自動化アプローチのための役員音声検出とASRの組み合わせが含まれる。
- 参考スコア(独自算出の注目度): 22.711149484932527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Police body-worn cameras have the potential to improve accountability and
transparency in policing. Yet in practice, they result in millions of hours of
footage that is never reviewed. We investigate the potential of large
pre-trained speech models for facilitating reviews, focusing on ASR and officer
speech detection in footage from traffic stops. Our proposed pipeline includes
training data alignment and filtering, fine-tuning with resource constraints,
and combining officer speech detection with ASR for a fully automated approach.
We find that (1) fine-tuning strongly improves ASR performance on officer
speech (WER=12-13%), (2) ASR on officer speech is much more accurate than on
community member speech (WER=43.55-49.07%), (3) domain-specific tasks like
officer speech detection and diarization remain challenging. Our work offers
practical applications for reviewing body camera footage and general guidance
for adapting pre-trained speech models to noisy multi-speaker domains.
- Abstract(参考訳): 警察のボディウォードカメラは、警察における説明責任と透明性を向上させる可能性がある。
しかし実際には、レビューされていない何百万時間もの映像が生成される。
本研究は,交通停止映像におけるasrと警官の発話検出に着目し,レビューを促進するための事前学習音声モデルの可能性について検討する。
提案するパイプラインには、トレーニングデータアライメントとフィルタリング、リソース制約による微調整、完全自動化アプローチのための役員音声検出とASRの組み合わせが含まれる。
1) 警官発話におけるasr性能は,(1) 微調整によって強く向上し (wer=12-13%), (2) 警察官発話におけるasrは, 地域住民発話(wer=43.55-49.07%) , (3) 警官発話検出やダイアリゼーションといったドメイン特化課題は依然として困難である。
本研究は、ボディカメラ映像のレビューや、事前学習された音声モデルをノイズの多いマルチスピーカ領域に適応するための一般的なガイダンスの実践的応用を提供する。
関連論文リスト
- A Multi-Perspective Machine Learning Approach to Evaluate Police-Driver
Interaction in Los Angeles [18.379058918856717]
州内で最も目に見えて接触した警察官は、交通停止中に年間2000万回以上、市民と交流している。
ボディウーンカメラ(BWC)は、警察の説明責任を高め、警察と公共の相互作用を改善する手段として用いられる。
本稿では、このBWC映像から音声、ビデオ、および転写情報を分析するために、新しいマルチパースペクティブ・マルチモーダル機械学習(ML)ツールを開発するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-24T19:56:20Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Can Visual Context Improve Automatic Speech Recognition for an Embodied
Agent? [3.7311680121118345]
本稿では,視覚的コンテキストを取り入れた新しいデコーダバイアス手法を提案する。
修正されていないASRシステムからWERを59%削減する。
論文 参考訳(メタデータ) (2022-10-21T11:16:05Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding? [14.575551366682872]
学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。
我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
論文 参考訳(メタデータ) (2021-11-29T15:13:36Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。