論文の概要: Developing Speech Processing Pipelines for Police Accountability
- arxiv url: http://arxiv.org/abs/2306.06086v1
- Date: Fri, 9 Jun 2023 17:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:00:56.574968
- Title: Developing Speech Processing Pipelines for Police Accountability
- Title(参考訳): 警察アカウンタビリティのための音声処理パイプラインの開発
- Authors: Anjalie Field, Prateek Verma, Nay San, Jennifer L. Eberhardt, Dan
Jurafsky
- Abstract要約: 警察のボディウーンのカメラは、警察の責任と透明性を向上する可能性がある。しかし実際には、何億時間もの映像がレビューされることはない。
本稿では,交通停止時の映像におけるASRと役員による音声検出に着目し,事前学習型大規模音声モデルの有効性について検討する。
提案するパイプラインには、トレーニングデータアライメントとフィルタリング、リソース制約による微調整、完全自動化アプローチのための役員音声検出とASRの組み合わせが含まれる。
- 参考スコア(独自算出の注目度): 22.711149484932527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Police body-worn cameras have the potential to improve accountability and
transparency in policing. Yet in practice, they result in millions of hours of
footage that is never reviewed. We investigate the potential of large
pre-trained speech models for facilitating reviews, focusing on ASR and officer
speech detection in footage from traffic stops. Our proposed pipeline includes
training data alignment and filtering, fine-tuning with resource constraints,
and combining officer speech detection with ASR for a fully automated approach.
We find that (1) fine-tuning strongly improves ASR performance on officer
speech (WER=12-13%), (2) ASR on officer speech is much more accurate than on
community member speech (WER=43.55-49.07%), (3) domain-specific tasks like
officer speech detection and diarization remain challenging. Our work offers
practical applications for reviewing body camera footage and general guidance
for adapting pre-trained speech models to noisy multi-speaker domains.
- Abstract(参考訳): 警察のボディウォードカメラは、警察における説明責任と透明性を向上させる可能性がある。
しかし実際には、レビューされていない何百万時間もの映像が生成される。
本研究は,交通停止映像におけるasrと警官の発話検出に着目し,レビューを促進するための事前学習音声モデルの可能性について検討する。
提案するパイプラインには、トレーニングデータアライメントとフィルタリング、リソース制約による微調整、完全自動化アプローチのための役員音声検出とASRの組み合わせが含まれる。
1) 警官発話におけるasr性能は,(1) 微調整によって強く向上し (wer=12-13%), (2) 警察官発話におけるasrは, 地域住民発話(wer=43.55-49.07%) , (3) 警官発話検出やダイアリゼーションといったドメイン特化課題は依然として困難である。
本研究は、ボディカメラ映像のレビューや、事前学習された音声モデルをノイズの多いマルチスピーカ領域に適応するための一般的なガイダンスの実践的応用を提供する。
関連論文リスト
- Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文 参考訳(メタデータ) (2024-09-25T20:59:12Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - A Multi-Perspective Machine Learning Approach to Evaluate Police-Driver
Interaction in Los Angeles [18.379058918856717]
州内で最も目に見えて接触した警察官は、交通停止中に年間2000万回以上、市民と交流している。
ボディウーンカメラ(BWC)は、警察の説明責任を高め、警察と公共の相互作用を改善する手段として用いられる。
本稿では、このBWC映像から音声、ビデオ、および転写情報を分析するために、新しいマルチパースペクティブ・マルチモーダル機械学習(ML)ツールを開発するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-24T19:56:20Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding? [14.575551366682872]
学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。
我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
論文 参考訳(メタデータ) (2021-11-29T15:13:36Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。