論文の概要: A study on audio synchronous steganography detection and distributed guide inference model based on sliding spectral features and intelligent inference drive
- arxiv url: http://arxiv.org/abs/2505.03193v1
- Date: Tue, 06 May 2025 05:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.221042
- Title: A study on audio synchronous steganography detection and distributed guide inference model based on sliding spectral features and intelligent inference drive
- Title(参考訳): スライディングスペクトル特徴とインテリジェント推論駆動に基づく音声同期型ステガノグラフィ検出と分散ガイド推論モデルに関する研究
- Authors: Wei Meng,
- Abstract要約: 本稿では,中国南洋艦隊がTikTok上で公開した短いビデオ"Yupan"のサンプルをもとに,検出および分散ガイダンス再構築モデルを提案する。
提案フレームワークは,同期型ステガノグラフィー検出におけるスライディングスペクトルの有効性を検証し,オープンプラットフォーム上での隠れ通信解析と戦術誘導シミュレーションのための推論モデルを構築した。
- 参考スコア(独自算出の注目度): 3.5516803380598074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of short video platforms in global communication, embedding steganographic data in audio synchronization streams has emerged as a new covert communication method. To address the limitations of traditional techniques in detecting synchronized steganography, this paper proposes a detection and distributed guidance reconstruction model based on short video "Yupan" samples released by China's South Sea Fleet on TikTok. The method integrates sliding spectrum feature extraction and intelligent inference mechanisms. A 25 ms sliding window with short-time Fourier transform (STFT) is used to extract the main frequency trajectory and construct the synchronization frame detection model (M1), identifying a frame flag "FFFFFFFFFFFFFFFFFF80". The subsequent 32-byte payload is decoded by a structured model (M2) to infer distributed guidance commands. Analysis reveals a low-entropy, repetitive byte sequence in the 36 to 45 second audio segment with highly concentrated spectral energy, confirming the presence of synchronization frames. Although plaintext semantics are not restored, the consistency in command field layout suggests features of military communication protocols. The multi-segment splicing model further shows cross-video embedding and centralized decoding capabilities. The proposed framework validates the effectiveness of sliding spectral features for synchronized steganography detection and builds an extensible inference model for covert communication analysis and tactical guidance simulation on open platforms.
- Abstract(参考訳): グローバル通信における短いビデオプラットフォームの増加に伴い,音声同期ストリームにステガノグラフデータを埋め込むことが,新たな隠蔽通信手法として登場した。
そこで本研究では,中国南洋艦隊がTikTok上で公開した短いビデオ"Yupan"サンプルに基づいて,従来型の同期型ステガノグラフィー検出手法の限界に対処する。
この方法は、スライディングスペクトルの特徴抽出とインテリジェント推論機構を統合する。
短時間フーリエ変換(STFT)を備えた25ミリ秒スライドウィンドウを用いて主周波数軌跡を抽出し、フレームフラグ「FFFFFFFFFFFFFFFFFFFF80」を識別する同期フレーム検出モデル(M1)を構築する。
その後の32バイトのペイロードは構造化モデル(M2)によってデコードされ、分散ガイダンスコマンドが推論される。
分析により、36秒から45秒の音声セグメントにおける低エントロピーで反復的なバイト列が高濃度のスペクトルエネルギーで示され、同期フレームの存在が確認される。
平文のセマンティクスは復元されていないが、コマンドフィールドレイアウトの一貫性は軍事通信プロトコルの特徴を示唆している。
マルチセグメントスプライシングモデルはさらに、ビデオ間の埋め込みと集中デコード機能を示している。
提案フレームワークは,同期型ステガノグラフィー検出におけるスライディングスペクトルの有効性を検証し,オープンプラットフォーム上での包括的通信解析と戦術的誘導シミュレーションのための拡張可能な推論モデルを構築した。
関連論文リスト
- Synchronous Multi-modal Semantic Communication System with Packet-level Coding [20.397350999784276]
パケットレベル符号化を用いた同期型マルチモーダルセマンティック通信システム(SyncSC)を提案する。
意味的・時間的同期を実現するため、3Dモーフィブルモード(3DMM)係数とテキストを意味論として送信する。
消去チャネル下でのセマンティックパケットの保護を目的として,パケット損失率が高い場合でも一定の視覚的品質を維持できるパケットレベルフォワード誤り訂正法(PacSC)を提案する。
論文 参考訳(メタデータ) (2024-08-08T15:42:00Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Synchronize Feature Extracting and Matching: A Single Branch Framework
for 3D Object Tracking [34.58431389376807]
Siameseネットワークは、3D LiDARオブジェクトトラッキングのためのデファクトベンチマークフレームワークである。
特徴抽出とマッチングを同期する新しい単一ブランチフレームワークSyncTrackを提案する。
2つのベンチマークデータセットの実験は、SyncTrackがリアルタイムトラッキングにおける最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2023-08-24T04:28:08Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Synthesizing audio from tongue motion during speech using tagged MRI via
transformer [13.442093381065268]
本稿では,4次元運動場に固有の予測情報を2次元分光法を用いて探索する,効率的な変形デコーダ変換ネットワークを提案する。
我々の枠組みは、これらの2つのモダリティ間の関係の理解を改善し、言語障害の治療の進展を知らせる可能性を秘めている。
論文 参考訳(メタデータ) (2023-02-14T17:27:55Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。