論文の概要: A Tactical Behaviour Recognition Framework Based on Causal Multimodal Reasoning: A Study on Covert Audio-Video Analysis Combining GAN Structure Enhancement and Phonetic Accent Modelling
- arxiv url: http://arxiv.org/abs/2507.21100v1
- Date: Fri, 04 Jul 2025 15:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.869671
- Title: A Tactical Behaviour Recognition Framework Based on Causal Multimodal Reasoning: A Study on Covert Audio-Video Analysis Combining GAN Structure Enhancement and Phonetic Accent Modelling
- Title(参考訳): 因果的マルチモーダル推論に基づく戦術行動認識フレームワーク:GAN構造強化と音声アクセントモデルを組み合わせた包括的オーディオ映像解析に関する研究
- Authors: Wei Meng,
- Abstract要約: TACTIC-GRAPHSは、スペクトルグラフ理論とマルチモーダルグラフニューラル推論を組み合わせて、戦術ビデオにおけるセマンティック理解と脅威検出を行うシステムである。
このフレームワークは、スペクトル埋め込み、時間的因果エッジモデリング、異種モーダル間の識別経路推論を含む。
TACTIC-AVSとTACTIC-Voiceデータセットの実験は、時間的アライメントにおける89.3%の精度と、完全な脅威連鎖の85%以上の認識を示し、ノード遅延はプラス150ミリ秒以内である。
- 参考スコア(独自算出の注目度): 3.5516803380598074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces TACTIC-GRAPHS, a system that combines spectral graph theory and multimodal graph neural reasoning for semantic understanding and threat detection in tactical video under high noise and weak structure. The framework incorporates spectral embedding, temporal causal edge modeling, and discriminative path inference across heterogeneous modalities. A semantic-aware keyframe extraction method fuses visual, acoustic, and action cues to construct temporal graphs. Using graph attention and Laplacian spectral mapping, the model performs cross-modal weighting and causal signal analysis. Experiments on TACTIC-AVS and TACTIC-Voice datasets show 89.3 percent accuracy in temporal alignment and over 85 percent recognition of complete threat chains, with node latency within plus-minus 150 milliseconds. The approach enhances structural interpretability and supports applications in surveillance, defense, and intelligent security systems.
- Abstract(参考訳): 本稿では、スペクトルグラフ理論とマルチモーダルグラフニューラル推論を組み合わせた、高雑音・弱構造下での戦術ビデオにおけるセマンティック理解と脅威検出システムであるTACTIC-GRAPHSを紹介する。
このフレームワークは、スペクトル埋め込み、時間的因果エッジモデリング、異種モーダル間の識別経路推論を含む。
セマンティック・アウェア・キーフレーム抽出法は、視覚的、音響的、行動的手がかりを融合して時間グラフを構築する。
グラフ注意とラプラシアンスペクトルマッピングを用いて、モデルはクロスモーダル重み付けと因果信号解析を行う。
TACTIC-AVSとTACTIC-Voiceデータセットの実験は、時間的アライメントにおける89.3%の精度と、完全な脅威連鎖の85%以上の認識を示し、ノード遅延はプラス150ミリ秒以内である。
このアプローチは構造的解釈可能性を高め、監視、防衛、インテリジェントセキュリティシステムにおける応用をサポートする。
関連論文リスト
- DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - A study on audio synchronous steganography detection and distributed guide inference model based on sliding spectral features and intelligent inference drive [3.5516803380598074]
本稿では,中国南洋艦隊がTikTok上で公開した短いビデオ"Yupan"のサンプルをもとに,検出および分散ガイダンス再構築モデルを提案する。
提案フレームワークは,同期型ステガノグラフィー検出におけるスライディングスペクトルの有効性を検証し,オープンプラットフォーム上での隠れ通信解析と戦術誘導シミュレーションのための推論モデルを構築した。
論文 参考訳(メタデータ) (2025-05-06T05:24:11Z) - CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis [75.25966323298003]
スペクトルイメージングは、医療や都市景観の理解など、様々な領域で有望な応用を提供する。
スペクトルカメラのチャネル次元と捕獲波長のばらつきは、AI駆動方式の開発を妨げる。
我々は、$textbfC$amera-$textbfA$gnostic $textbfR$esupervised $textbfL$のモデルである$textbfCARL$を紹介した。
論文 参考訳(メタデータ) (2025-04-27T13:06:40Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Neural Harmonium: An Interpretable Deep Structure for Nonlinear Dynamic
System Identification with Application to Audio Processing [4.599180419117645]
解釈可能性(Interpretability)は、モデルを一般化し、その限界を明らかにする能力を理解するのに役立ちます。
本稿では,動的システムモデリングのための因果解釈可能な深部構造を提案する。
提案モデルは,時間周波数領域におけるシステムモデリングによる調和解析を利用する。
論文 参考訳(メタデータ) (2023-10-10T21:32:15Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Synergistic Signal Denoising for Multimodal Time Series of Structure
Vibration [9.144905626316534]
本稿では,構造的健康モニタリング(SHM)で広く用いられているマルチモーダル振動信号に固有の複雑さに適した,新しいディープラーニングアルゴリズムを提案する。
畳み込みと再帰的なアーキテクチャの融合により、アルゴリズムは局所化と長期化の両方の構造挙動を順応的にキャプチャする。
以上の結果から,複数のSHMシナリオにおける予測精度,早期損傷検出,適応性に有意な改善が認められた。
論文 参考訳(メタデータ) (2023-08-17T00:41:50Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph
Attention Networks [45.2410605401286]
我々は,スコアレベルのアンサンブルを使わずに,幅広い種類のスプーフ攻撃を検出可能な,効率的な単一システムの構築を目指している。
異種時間領域とスペクトル領域にまたがるアーティファクトをモデル化した新しい異種重ねグラフアテンション層を提案する。
AASISTという名前の我々のアプローチは、現在の最先端技術よりも20%優れています。
論文 参考訳(メタデータ) (2021-10-04T05:48:25Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。