論文の概要: Can We Identify Unknown Audio Recording Environments in Forensic Scenarios?
- arxiv url: http://arxiv.org/abs/2405.02119v1
- Date: Fri, 3 May 2024 14:19:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 12:46:03.822748
- Title: Can We Identify Unknown Audio Recording Environments in Forensic Scenarios?
- Title(参考訳): 法医学的シナリオにおける未知の音声記録環境の特定は可能か?
- Authors: Denise Moussa, Germans Hirsch, Christian Riess,
- Abstract要約: 本稿では環境識別のための表現学習フレームワークEnvIdを提案する。
これは、目に見えない環境場所の堅牢な数発の分類のための最初のツールである。
目に見えない信号の劣化、環境特性、記録位置のミスマッチの下でも、良好な品質の予測を提供する。
- 参考スコア(独自算出の注目度): 6.570712059945705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio recordings may provide important evidence in criminal investigations. One such case is the forensic association of the recorded audio to the recording location. For example, a voice message may be the only investigative cue to narrow down the candidate sites for a crime. Up to now, several works provide tools for closed-set recording environment classification under relatively clean recording conditions. However, in forensic investigations, the candidate locations are case-specific. Thus, closed-set tools are not applicable without retraining on a sufficient amount of training samples for each case and respective candidate set. In addition, a forensic tool has to deal with audio material from uncontrolled sources with variable properties and quality. In this work, we therefore attempt a major step towards practical forensic application scenarios. We propose a representation learning framework called EnvId, short for environment identification. EnvId avoids case-specific retraining. Instead, it is the first tool for robust few-shot classification of unseen environment locations. We demonstrate that EnvId can handle forensically challenging material. It provides good quality predictions even under unseen signal degradations, environment characteristics or recording position mismatches. Our code and datasets will be made publicly available upon acceptance.
- Abstract(参考訳): オーディオ録音は刑事捜査において重要な証拠となる可能性がある。
そのような場合の1つは、録音された音声と記録された位置との法医学的関連である。
例えば、音声メッセージは、犯罪の候補サイトを絞り込む唯一の調査キューであるかもしれない。
これまでは、比較的清潔な記録条件下でのクローズドセット記録環境分類のためのツールがいくつか提供されている。
しかし、法医学的な調査では、候補地はケース固有である。
このように、クローズドセットツールは、各ケースと各候補セットに対する十分な量のトレーニングサンプルを再訓練することなく適用できない。
さらに、法医学ツールは、制御されていないソースのオーディオ素材を、様々な特性と品質で扱う必要がある。
そこで本研究では,実践的な法医学的応用シナリオに向けて大きな一歩を踏み出します。
本稿では環境識別のための表現学習フレームワークEnvIdを提案する。
EnvIdはケース固有の再トレーニングを避ける。
代わりに、目に見えない環境場所の堅牢な数ショット分類のための最初のツールである。
EnvIdは法医学的に困難な素材を扱えることを実証する。
目に見えない信号の劣化、環境特性、記録位置のミスマッチの下でも、良好な品質の予測を提供する。
私たちのコードとデータセットは、受け入れ次第公開されます。
関連論文リスト
- A noisy elephant in the room: Is your out-of-distribution detector robust to label noise? [49.88894124047644]
我々は、最先端のOOD検出方法20について詳しく検討する。
不正に分類されたIDサンプルとOODサンプルの分離が不十分であることを示す。
論文 参考訳(メタデータ) (2024-04-02T09:40:22Z) - AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition [1.5106201893222209]
本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
論文 参考訳(メタデータ) (2023-08-30T03:03:47Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - A Comparative Study on Approaches to Acoustic Scene Classification using
CNNs [0.0]
異なる種類の表現は、分類の精度に劇的な影響を及ぼす。
我々は,異なるCNNネットワークとオートエンコーダを用いて,スペクトル,MFCC,埋め込み表現について検討した。
その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。
論文 参考訳(メタデータ) (2022-04-26T09:23:29Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Sound of Guns: Digital Forensics of Gun Audio Samples meets Artificial
Intelligence [0.7734726150561086]
本稿では,マイクロホンとシューターの相対的な位置を全く意識せず,記録装置の知識をゼロにする新しい手法を提案する。
われわれのソリューションは、銃のカテゴリ、口径、モデルを特定し、3655サンプルからなるデータセット上で90%以上の精度に達する。
論文 参考訳(メタデータ) (2020-04-15T09:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。