論文の概要: Can We Identify Unknown Audio Recording Environments in Forensic Scenarios?
- arxiv url: http://arxiv.org/abs/2405.02119v1
- Date: Fri, 3 May 2024 14:19:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 12:46:03.822748
- Title: Can We Identify Unknown Audio Recording Environments in Forensic Scenarios?
- Title(参考訳): 法医学的シナリオにおける未知の音声記録環境の特定は可能か?
- Authors: Denise Moussa, Germans Hirsch, Christian Riess,
- Abstract要約: 本稿では環境識別のための表現学習フレームワークEnvIdを提案する。
これは、目に見えない環境場所の堅牢な数発の分類のための最初のツールである。
目に見えない信号の劣化、環境特性、記録位置のミスマッチの下でも、良好な品質の予測を提供する。
- 参考スコア(独自算出の注目度): 6.570712059945705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio recordings may provide important evidence in criminal investigations. One such case is the forensic association of the recorded audio to the recording location. For example, a voice message may be the only investigative cue to narrow down the candidate sites for a crime. Up to now, several works provide tools for closed-set recording environment classification under relatively clean recording conditions. However, in forensic investigations, the candidate locations are case-specific. Thus, closed-set tools are not applicable without retraining on a sufficient amount of training samples for each case and respective candidate set. In addition, a forensic tool has to deal with audio material from uncontrolled sources with variable properties and quality. In this work, we therefore attempt a major step towards practical forensic application scenarios. We propose a representation learning framework called EnvId, short for environment identification. EnvId avoids case-specific retraining. Instead, it is the first tool for robust few-shot classification of unseen environment locations. We demonstrate that EnvId can handle forensically challenging material. It provides good quality predictions even under unseen signal degradations, environment characteristics or recording position mismatches. Our code and datasets will be made publicly available upon acceptance.
- Abstract(参考訳): オーディオ録音は刑事捜査において重要な証拠となる可能性がある。
そのような場合の1つは、録音された音声と記録された位置との法医学的関連である。
例えば、音声メッセージは、犯罪の候補サイトを絞り込む唯一の調査キューであるかもしれない。
これまでは、比較的清潔な記録条件下でのクローズドセット記録環境分類のためのツールがいくつか提供されている。
しかし、法医学的な調査では、候補地はケース固有である。
このように、クローズドセットツールは、各ケースと各候補セットに対する十分な量のトレーニングサンプルを再訓練することなく適用できない。
さらに、法医学ツールは、制御されていないソースのオーディオ素材を、様々な特性と品質で扱う必要がある。
そこで本研究では,実践的な法医学的応用シナリオに向けて大きな一歩を踏み出します。
本稿では環境識別のための表現学習フレームワークEnvIdを提案する。
EnvIdはケース固有の再トレーニングを避ける。
代わりに、目に見えない環境場所の堅牢な数ショット分類のための最初のツールである。
EnvIdは法医学的に困難な素材を扱えることを実証する。
目に見えない信号の劣化、環境特性、記録位置のミスマッチの下でも、良好な品質の予測を提供する。
私たちのコードとデータセットは、受け入れ次第公開されます。
関連論文リスト
- Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Learning to Detect Novel and Fine-Grained Acoustic Sequences Using
Pretrained Audio Representations [17.043435238200605]
我々は,適切な表現を事前学習するための手順を開発し,それを数少ないショット学習シナリオに転送する手法を開発した。
本研究では,AudioSetにおける事前学習表現の汎用性を評価する。
事前訓練された埋め込みは提案したタスクに適しており、数少ないショットフレームワークの複数の側面を可能にする。
論文 参考訳(メタデータ) (2023-05-03T18:41:24Z) - Learning to Adapt to Domain Shifts with Few-shot Samples in Anomalous
Sound Detection [7.631596468553607]
異常検出は、産業機器の監視など、多くの重要な応用がある。
サンプルの少ない新しい条件に適応するフレームワークを提案する。
提案手法は,最近リリースされた各種機械の音響測定データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-05T00:22:25Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Sound of Guns: Digital Forensics of Gun Audio Samples meets Artificial
Intelligence [0.7734726150561086]
本稿では,マイクロホンとシューターの相対的な位置を全く意識せず,記録装置の知識をゼロにする新しい手法を提案する。
われわれのソリューションは、銃のカテゴリ、口径、モデルを特定し、3655サンプルからなるデータセット上で90%以上の精度に達する。
論文 参考訳(メタデータ) (2020-04-15T09:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。