論文の概要: Developing Speech Processing Pipelines for Police Accountability
- arxiv url: http://arxiv.org/abs/2306.06086v1
- Date: Fri, 9 Jun 2023 17:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:00:56.574968
- Title: Developing Speech Processing Pipelines for Police Accountability
- Title(参考訳): 警察アカウンタビリティのための音声処理パイプラインの開発
- Authors: Anjalie Field, Prateek Verma, Nay San, Jennifer L. Eberhardt, Dan
Jurafsky
- Abstract要約: 警察のボディウーンのカメラは、警察の責任と透明性を向上する可能性がある。しかし実際には、何億時間もの映像がレビューされることはない。
本稿では,交通停止時の映像におけるASRと役員による音声検出に着目し,事前学習型大規模音声モデルの有効性について検討する。
提案するパイプラインには、トレーニングデータアライメントとフィルタリング、リソース制約による微調整、完全自動化アプローチのための役員音声検出とASRの組み合わせが含まれる。
- 参考スコア(独自算出の注目度): 22.711149484932527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Police body-worn cameras have the potential to improve accountability and
transparency in policing. Yet in practice, they result in millions of hours of
footage that is never reviewed. We investigate the potential of large
pre-trained speech models for facilitating reviews, focusing on ASR and officer
speech detection in footage from traffic stops. Our proposed pipeline includes
training data alignment and filtering, fine-tuning with resource constraints,
and combining officer speech detection with ASR for a fully automated approach.
We find that (1) fine-tuning strongly improves ASR performance on officer
speech (WER=12-13%), (2) ASR on officer speech is much more accurate than on
community member speech (WER=43.55-49.07%), (3) domain-specific tasks like
officer speech detection and diarization remain challenging. Our work offers
practical applications for reviewing body camera footage and general guidance
for adapting pre-trained speech models to noisy multi-speaker domains.
- Abstract(参考訳): 警察のボディウォードカメラは、警察における説明責任と透明性を向上させる可能性がある。
しかし実際には、レビューされていない何百万時間もの映像が生成される。
本研究は,交通停止映像におけるasrと警官の発話検出に着目し,レビューを促進するための事前学習音声モデルの可能性について検討する。
提案するパイプラインには、トレーニングデータアライメントとフィルタリング、リソース制約による微調整、完全自動化アプローチのための役員音声検出とASRの組み合わせが含まれる。
1) 警官発話におけるasr性能は,(1) 微調整によって強く向上し (wer=12-13%), (2) 警察官発話におけるasrは, 地域住民発話(wer=43.55-49.07%) , (3) 警官発話検出やダイアリゼーションといったドメイン特化課題は依然として困難である。
本研究は、ボディカメラ映像のレビューや、事前学習された音声モデルをノイズの多いマルチスピーカ領域に適応するための一般的なガイダンスの実践的応用を提供する。
関連論文リスト
- Auto-Drafting Police Reports from Noisy ASR Outputs: A Trust-Centered LLM Approach [11.469965123352287]
本研究では,複雑な,騒々しい,複数ロールの対話データから,警察報告のドラフトを生成するために設計された,革新的なAI駆動システムを提案する。
我々のアプローチは、法執行機関の相互作用の重要な要素をインテリジェントに抽出し、ドラフトに含めます。
このフレームワークは、将来の警察行為において、レポートプロセスを変革し、監視、一貫性、公平性を高める可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T16:27:28Z) - Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文 参考訳(メタデータ) (2024-09-25T20:59:12Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding? [14.575551366682872]
学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。
我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
論文 参考訳(メタデータ) (2021-11-29T15:13:36Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。