論文の概要: EnvId: A Metric Learning Approach for Forensic Few-Shot Identification of Unseen Environments
- arxiv url: http://arxiv.org/abs/2405.02119v2
- Date: Tue, 11 Feb 2025 21:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:44:32.839589
- Title: EnvId: A Metric Learning Approach for Forensic Few-Shot Identification of Unseen Environments
- Title(参考訳): EnvId:見当たらない環境の法医学的Few-Shot識別のための計量学習手法
- Authors: Denise Moussa, Germans Hirsch, Christian Riess,
- Abstract要約: 本稿では環境識別のための表現学習フレームワークEnvIdを提案する。
EnvIdは、タスクを数ショットの分類問題としてモデル化することで、ケース固有の再トレーニングを避ける。
目に見えない信号劣化、分布外残響特性、記録位置ミスマッチの下でも良好な品質予測を提供する。
- 参考スコア(独自算出の注目度): 6.570712059945705
- License:
- Abstract: Audio recordings may provide important evidence in criminal investigations. One such case is the forensic association of a recorded audio to its recording location. For example, a voice message may be the only investigative cue to narrow down the candidate sites for a crime. Up to now, several works provide supervised classification tools for closed-set recording environment identification under relatively clean recording conditions. However, in forensic investigations, the candidate locations are case-specific. Thus, supervised learning techniques are not applicable without retraining a classifier on a sufficient amount of training samples for each case and respective candidate set. In addition, a forensic tool has to deal with audio material from uncontrolled sources with variable properties and quality. In this work, we therefore attempt a major step towards practical forensic application scenarios. We propose a representation learning framework called EnvId, short for environment identification. EnvId avoids case-specific retraining by modeling the task as a few-shot classification problem. We demonstrate that EnvId can handle forensically challenging material. It provides good quality predictions even under unseen signal degradations, out-of-distribution reverberation characteristics or recording position mismatches.
- Abstract(参考訳): オーディオ録音は刑事捜査において重要な証拠となる可能性がある。
そのような場合の1つは、録音されたオーディオの法医学的関連性である。
例えば、音声メッセージは、犯罪の候補サイトを絞り込む唯一の調査キューであるかもしれない。
これまでは、比較的清潔な記録条件下でのクローズドセット記録環境識別のための教師付き分類ツールがいくつかの研究で提供されてきた。
しかし、法医学的な調査では、候補地はケース固有である。
したがって、各ケースと各候補セットに対する十分なトレーニングサンプルに対して、分類器を再訓練しない限り、教師付き学習技術は適用できない。
さらに、法医学ツールは、制御されていないソースのオーディオ素材を、様々な特性と品質で扱う必要がある。
そこで本研究では,実践的な法医学的応用シナリオに向けて大きな一歩を踏み出します。
本稿では環境識別のための表現学習フレームワークEnvIdを提案する。
EnvIdは、タスクを数ショットの分類問題としてモデル化することで、ケース固有の再トレーニングを避ける。
EnvIdは法医学的に困難な素材を扱えることを実証する。
目に見えない信号劣化、分布外残響特性、記録位置ミスマッチの下でも良好な品質予測を提供する。
関連論文リスト
- A noisy elephant in the room: Is your out-of-distribution detector robust to label noise? [49.88894124047644]
我々は、最先端のOOD検出方法20について詳しく検討する。
不正に分類されたIDサンプルとOODサンプルの分離が不十分であることを示す。
論文 参考訳(メタデータ) (2024-04-02T09:40:22Z) - AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition [1.5106201893222209]
本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
論文 参考訳(メタデータ) (2023-08-30T03:03:47Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - A Comparative Study on Approaches to Acoustic Scene Classification using
CNNs [0.0]
異なる種類の表現は、分類の精度に劇的な影響を及ぼす。
我々は,異なるCNNネットワークとオートエンコーダを用いて,スペクトル,MFCC,埋め込み表現について検討した。
その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。
論文 参考訳(メタデータ) (2022-04-26T09:23:29Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Sound of Guns: Digital Forensics of Gun Audio Samples meets Artificial
Intelligence [0.7734726150561086]
本稿では,マイクロホンとシューターの相対的な位置を全く意識せず,記録装置の知識をゼロにする新しい手法を提案する。
われわれのソリューションは、銃のカテゴリ、口径、モデルを特定し、3655サンプルからなるデータセット上で90%以上の精度に達する。
論文 参考訳(メタデータ) (2020-04-15T09:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。