論文の概要: What Did I Just Hear? Detecting Pornographic Sounds in Adult Videos
Using Neural Networks
- arxiv url: http://arxiv.org/abs/2209.03711v1
- Date: Thu, 8 Sep 2022 11:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:31:21.804686
- Title: What Did I Just Hear? Detecting Pornographic Sounds in Adult Videos
Using Neural Networks
- Title(参考訳): 何を聞いたんだ?
ニューラルネットワークを用いた成人ビデオのポルノ音検出
- Authors: Holy Lovenia, Dessi Puji Lestari, Rita Frieske
- Abstract要約: 我々は、log mel spectrogramでトレーニングされたCNNが、Pornography-800データセット上で最高のパフォーマンスを達成することを発見した。
実験の結果,log mel spectrogram は,モデルがポルノ音を識別する上で,より優れた表現を可能にすることが示された。
- 参考スコア(独自算出の注目度): 0.618778092044887
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Audio-based pornographic detection enables efficient adult content filtering
without sacrificing performance by exploiting distinct spectral
characteristics. To improve it, we explore pornographic sound modeling based on
different neural architectures and acoustic features. We find that CNN trained
on log mel spectrogram achieves the best performance on Pornography-800
dataset. Our experiment results also show that log mel spectrogram allows
better representations for the models to recognize pornographic sounds.
Finally, to classify whole audio waveforms rather than segments, we employ
voting segment-to-audio technique that yields the best audio-level detection
results.
- Abstract(参考訳): オーディオベースのポルノ検出は、異なるスペクトル特性を生かしてパフォーマンスを犠牲にすることなく、効率的な成人コンテンツフィルタリングを可能にする。
そこで我々は,異なるニューラルアーキテクチャと音響特性に基づくポルノサウンドモデリングについて検討する。
ログメルスペクトログラムで訓練されたcnnは、ポルノグラフィ800データセットで最高のパフォーマンスを達成している。
実験の結果,log mel spectrogram により,モデルがポルノ音を認識できるようにした。
最後に、セグメントではなく全音声波形を分類するために、最適な音声レベルの検出結果を得る投票セグメント・トゥ・オーディオ方式を用いる。
関連論文リスト
- Multimodal Input Aids a Bayesian Model of Phonetic Learning [0.6827423171182154]
本稿では,既存の音声コーパスのための高品質な音声合成ビデオを作成する方法を提案する。
我々の学習モデルは、オーディオ視覚入力の訓練と試験の両方を行うと、音素識別電池の8.1%の相対的な改善が達成される。
視覚情報は特にノイズの多いオーディオ環境において有益である。
論文 参考訳(メタデータ) (2024-07-22T19:00:11Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。