論文の概要: Efficient Streaming Voice Steganalysis in Challenging Detection Scenarios
- arxiv url: http://arxiv.org/abs/2411.13612v1
- Date: Wed, 20 Nov 2024 02:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:32.664383
- Title: Efficient Streaming Voice Steganalysis in Challenging Detection Scenarios
- Title(参考訳): 連鎖検出シナリオにおける効率的なストリーム音声ステガナリシス
- Authors: Pengcheng Zhou, Zhengyang Fang, Zhongliang Yang, Zhili Zhou, Linna Zhou,
- Abstract要約: 本稿ではDVSF(Dual-View VoIP Steganalysis Framework)を紹介する。
このフレームワークは、VoIPストリームセグメント内のネイティブステガノグラフ記述子の一部をランダムに難読化する。
次に、VoIPのグローバル機能に基づいて、ステガノグラフィーに関連するきめ細かい局所的特徴をキャプチャする。
- 参考スコア(独自算出の注目度): 13.049308869863248
- License:
- Abstract: In recent years, there has been an increasing number of information hiding techniques based on network streaming media, focusing on how to covertly and efficiently embed secret information into real-time transmitted network media signals to achieve concealed communication. The misuse of these techniques can lead to significant security risks, such as the spread of malicious code, commands, and viruses. Current steganalysis methods for network voice streams face two major challenges: efficient detection under low embedding rates and short duration conditions. These challenges arise because, with low embedding rates (e.g., as low as 10%) and short transmission durations (e.g., only 0.1 second), detection models struggle to acquire sufficiently rich sample features, making effective steganalysis difficult. To address these challenges, this paper introduces a Dual-View VoIP Steganalysis Framework (DVSF). The framework first randomly obfuscates parts of the native steganographic descriptors in VoIP stream segments, making the steganographic features of hard-to-detect samples more pronounced and easier to learn. It then captures fine-grained local features related to steganography, building on the global features of VoIP. Specially constructed VoIP segment triplets further adjust the feature distances within the model. Ultimately, this method effectively address the detection difficulty in VoIP. Extensive experiments demonstrate that our method significantly improves the accuracy of streaming voice steganalysis in these challenging detection scenarios, surpassing existing state-of-the-art methods and offering superior near-real-time performance.
- Abstract(参考訳): 近年,ネットワーク・ストリーミング・メディアをベースとした情報隠蔽技術が増加しており,隠蔽通信を実現するために,秘密情報をリアルタイム送信されたネットワーク・メディア信号に隠蔽かつ効率的に埋め込む方法が注目されている。
これらのテクニックの誤用は、悪意のあるコードやコマンド、ウイルスの拡散など、重大なセキュリティリスクを引き起こす可能性がある。
ネットワーク音声ストリームの現在のステガナリシス法は,低埋め込み率下での効率的な検出と短時間の条件の2つの大きな課題に直面している。
これらの課題は、低い埋め込み率(例えば10%以下)と短い送信期間(例えば0.1秒以下)で、検出モデルは十分な豊富なサンプル特徴を取得するのに苦労するため、効果的なステガナシスを難しくする。
これらの課題に対処するため,本稿ではDVSF(Dual-View VoIP Steganalysis Framework)を紹介する。
このフレームワークは、まずVoIPストリームセグメントのネイティブなステガノグラフ記述子の一部をランダムに難解化し、検出しにくいサンプルのステガノグラフの特徴をより分かりやすく学習しやすくする。
次に、VoIPのグローバル機能に基づいて、ステガノグラフィーに関連するきめ細かい局所的特徴をキャプチャする。
特別に構築されたVoIPセグメント三重項はモデル内の特徴距離を更に調整する。
最終的に、この方法はVoIP検出の難しさに効果的に対処する。
大規模な実験により,これらの難解な検出シナリオにおいて,本手法が既存の最先端手法を超越し,リアルタイムに近い性能を実現することにより,ストリーミング音声ステガナリシスの精度を著しく向上することが示された。
関連論文リスト
- Audios Don't Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection [0.0]
マルチ周波数チャネルアテンション機構(MFCA)と2次元離散コサイン変換(DCT)に基づくオーディオディープフェイク検出手法を提案する。
音声信号をメルスペクトログラムに処理し、MobileNet V2を用いて深い特徴を抽出することにより、音声信号の微細な周波数領域の特徴を効果的に捉えることができる。
実験の結果,従来の手法と比較して,精度,精度,リコール,F1スコア,その他の指標において有意な優位性を示した。
論文 参考訳(メタデータ) (2024-12-12T17:15:49Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。
本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。
提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T17:17:49Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。