論文の概要: Live-E2T: Real-time Threat Monitoring in Video via Deduplicated Event Reasoning and Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2509.18571v1
- Date: Tue, 23 Sep 2025 02:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.666133
- Title: Live-E2T: Real-time Threat Monitoring in Video via Deduplicated Event Reasoning and Chain-of-Thought
- Title(参考訳): Live-E2T: イベント推論とChain-of-Thoughtによるビデオのリアルタイム脅威監視
- Authors: Yuhan Wang, Cheng Liu, Zihan Zhao, Weichao Wu,
- Abstract要約: Live-E2Tは、リアルタイムパフォーマンスと意思決定説明可能性の要件を統合する新しいフレームワークである。
また,Live-E2Tは,脅威検出精度,リアルタイム効率,説明可能性において,最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.651072801329425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time threat monitoring identifies threatening behaviors in video streams and provides reasoning and assessment of threat events through explanatory text. However, prevailing methodologies, whether based on supervised learning or generative models, struggle to concurrently satisfy the demanding requirements of real-time performance and decision explainability. To bridge this gap, we introduce Live-E2T, a novel framework that unifies these two objectives through three synergistic mechanisms. First, we deconstruct video frames into structured Human-Object-Interaction-Place semantic tuples. This approach creates a compact, semantically focused representation, circumventing the information degradation common in conventional feature compression. Second, an efficient online event deduplication and updating mechanism is proposed to filter spatio-temporal redundancies, ensuring the system's real time responsiveness. Finally, we fine-tune a Large Language Model using a Chain-of-Thought strategy, endow it with the capability for transparent and logical reasoning over event sequences to produce coherent threat assessment reports. Extensive experiments on benchmark datasets, including XD-Violence and UCF-Crime, demonstrate that Live-E2T significantly outperforms state-of-the-art methods in terms of threat detection accuracy, real-time efficiency, and the crucial dimension of explainability.
- Abstract(参考訳): リアルタイム脅威監視は、ビデオストリーム内の脅威行為を特定し、説明テキストを通じて脅威事象の推論と評価を提供する。
しかし、教師付き学習や生成モデルに基づく手法は、リアルタイム性能と意思決定説明可能性の要求を満たすのに苦労する。
このギャップを埋めるために、我々は3つの相乗的メカニズムを通してこれらの2つの目的を統一する新しいフレームワークであるLive-E2Tを紹介する。
まず,ビデオフレームを構造化されたHuman-Object-Interaction-Placeセマンティックタプルに分解する。
このアプローチは、従来の特徴圧縮に共通する情報劣化を回避するために、コンパクトでセマンティックに焦点を絞った表現を生成する。
第2に、時空間冗長性をフィルタリングし、システムのリアルタイム応答性を確保するために、効率的なオンラインイベントの重複と更新機構を提案する。
最後に、Chain-of-Thought戦略を用いて大規模言語モデルを微調整し、イベントシーケンスを透過的かつ論理的に推論し、一貫性のある脅威評価レポートを生成する能力を付与する。
XD-ViolenceやUCF-Crimeといったベンチマークデータセットに関する大規模な実験は、Live-E2Tが脅威検出精度、リアルタイム効率、説明可能性の重要な次元において最先端の手法よりも著しく優れていることを示した。
関連論文リスト
- Cascading multi-agent anomaly detection in surveillance systems via vision-language models and embedding-based classification [0.0]
この研究は、補完パラダイムをコヒーレントで解釈可能なアーキテクチャに統一するカスケーディングマルチエージェントフレームワークを導入している。
初期モジュールは再構成ゲートフィルタリングとオブジェクトレベルの評価を行い、高レベルの推論エージェントは、意味的に曖昧な事象を解釈するために選択的に呼び出される。
このフレームワークは、早期出力効率、適応型マルチエージェント推論、説明可能な異常属性を組み合わせることで、従来の検出パイプラインを超えて進歩し、スケーラブルなインテリジェントなビジュアル監視のための再現可能でエネルギー効率の良い基盤を確立する。
論文 参考訳(メタデータ) (2026-01-08T11:31:47Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - T2VAttack: Adversarial Attack on Text-to-Video Diffusion Models [67.13397169618624]
本稿では,テキスト・トゥ・ビデオ(T2V)モデルに対するセマンティックおよび時間的観点からの敵対的攻撃に関する研究であるT2VAttackを紹介する。
提案手法は, 意味的, 時間的クリティカルな単語をプロンプトで識別し, アドレディ検索による同義語に置き換えるT2VAttack-Sと, 最適化された単語を最小の摂動で反復的に挿入するT2VAttack-Iである。
論文 参考訳(メタデータ) (2025-12-30T03:00:46Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - FlowXpert: Context-Aware Flow Embedding for Enhanced Traffic Detection in IoT Network [7.30584204219718]
IoT(Internet of Things)環境では、多数のデバイス間の継続的なインタラクションによって複雑な動的ネットワークトラフィックが生成される。
機械学習(ML)ベースのトラフィック検出技術は、ネットワークセキュリティを確保する上で重要なコンポーネントである。
論文 参考訳(メタデータ) (2025-09-25T07:52:58Z) - Dynamic Temporal Positional Encodings for Early Intrusion Detection in IoT [3.6686692131754834]
IoT(Internet of Things)の急速な拡張は、重大なセキュリティ上の課題をもたらしている。
従来の侵入検知システム(IDS)は、しばしばネットワークトラフィックの時間的特性を見落としている。
動的時間的位置エンコーディングを組み込んだトランスフォーマーを用いた早期侵入検知システム(EIDS)を提案する。
論文 参考訳(メタデータ) (2025-06-22T17:56:19Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Towards Effective, Efficient and Unsupervised Social Event Detection in the Hyperbolic Space [54.936897625837474]
この記事では、教師なしフレームワークHyperSED(Hyperbolic SED)を紹介します。
具体的には、まずソーシャルメッセージをセマンティックベースのメッセージアンカーにモデル化し、次にアンカーグラフの構造を利用する。
公開データセットの実験では、HyperSEDの競合性能と、大幅な効率向上が示されている。
論文 参考訳(メタデータ) (2024-12-14T06:55:27Z) - Context-Conditioned Spatio-Temporal Predictive Learning for Reliable V2V Channel Prediction [25.688521281119037]
下流タスクの最適化には,V2Vチャネル状態情報(CSI)予測が不可欠である。
従来の予測手法は、時間、帯域幅、アンテナ(TX、RX)空間の予測を含む4次元(4D)CSIに重点を置いている。
本研究では,4次元CSIデータ内の依存関係をキャプチャするコンテキスト条件付き時間予測学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T04:15:36Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。