論文の概要: PiercingEye: Dual-Space Video Violence Detection with Hyperbolic Vision-Language Guidance
- arxiv url: http://arxiv.org/abs/2504.18866v1
- Date: Sat, 26 Apr 2025 09:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.02512
- Title: PiercingEye: Dual-Space Video Violence Detection with Hyperbolic Vision-Language Guidance
- Title(参考訳): PiercingEye:双対空間ビデオビオレンス検出
- Authors: Jiaxu Leng, Zhanjie Wu, Mingpi Tan, Mengjingcheng Mo, Jiankang Zheng, Qingqing Li, Ji Gan, Xinbo Gao,
- Abstract要約: 既存のビデオ暴力検出手法はユークリッド表現学習に依存している。
ユークリッドおよび双曲幾何学を相乗化する新しい二空間学習フレームワークであるPiercingEyeを提案する。
XD-ViolenceとUCF-Crimeベンチマークの実験は、PiercingEyeが最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 39.38656685766509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing weakly supervised video violence detection (VVD) methods primarily rely on Euclidean representation learning, which often struggles to distinguish visually similar yet semantically distinct events due to limited hierarchical modeling and insufficient ambiguous training samples. To address this challenge, we propose PiercingEye, a novel dual-space learning framework that synergizes Euclidean and hyperbolic geometries to enhance discriminative feature representation. Specifically, PiercingEye introduces a layer-sensitive hyperbolic aggregation strategy with hyperbolic Dirichlet energy constraints to progressively model event hierarchies, and a cross-space attention mechanism to facilitate complementary feature interactions between Euclidean and hyperbolic spaces. Furthermore, to mitigate the scarcity of ambiguous samples, we leverage large language models to generate logic-guided ambiguous event descriptions, enabling explicit supervision through a hyperbolic vision-language contrastive loss that prioritizes high-confusion samples via dynamic similarity-aware weighting. Extensive experiments on XD-Violence and UCF-Crime benchmarks demonstrate that PiercingEye achieves state-of-the-art performance, with particularly strong results on a newly curated ambiguous event subset, validating its superior capability in fine-grained violence detection.
- Abstract(参考訳): 既存のビデオ暴力検出法(VVD)は、主にユークリッド表現学習に依存しており、しばしば視覚的に類似しているが意味的に異なる事象を区別するのに苦労する。
この課題に対処するために、識別的特徴表現を強化するためにユークリッドおよび双曲幾何学を相乗化する新しい二空間学習フレームワークであるPiercingEyeを提案する。
特に、PiercingEyeは、イベント階層を漸進的にモデル化するための双曲的双曲エネルギー制約を持つ層感受性双曲集合戦略と、ユークリッド空間と双曲空間の間の相補的特徴相互作用を促進するクロススペースアテンション機構を導入している。
さらに、あいまいなサンプルの不足を軽減するために、大きな言語モデルを用いて論理誘導のあいまいなイベント記述を生成し、動的類似性認識重み付けによるハイコンフュージョン標本の優先順位付けを行う双曲的視覚言語によるコントラスト損失による明示的な監視を可能にする。
XD-ViolenceとUCF-Crimeベンチマークに関する大規模な実験は、PiercingEyeが最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection [2.749898166276854]
弱教師付きビデオ異常検出(WS-VAD)が現代研究の方向性として浮上している。
暴力やヌードなどの異常を正確に検出するマルチモーダルなWS-VADフレームワークを提案する。
提案モデルでは,暴力とヌード検出のベンチマークデータセットを用いて,最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-12-29T12:46:57Z) - Towards Effective, Efficient and Unsupervised Social Event Detection in the Hyperbolic Space [54.936897625837474]
この記事では、教師なしフレームワークHyperSED(Hyperbolic SED)を紹介します。
具体的には、まずソーシャルメッセージをセマンティックベースのメッセージアンカーにモデル化し、次にアンカーグラフの構造を利用する。
公開データセットの実験では、HyperSEDの競合性能と、大幅な効率向上が示されている。
論文 参考訳(メタデータ) (2024-12-14T06:55:27Z) - Beyond Euclidean: Dual-Space Representation Learning for Weakly Supervised Video Violence Detection [41.37736889402566]
我々は、弱教師付きビデオビオレンス検出(VVD)のための新しいデュアルスペース表現学習法(DSRL)を開発した。
本手法は,事象の視覚的特徴を捉えるとともに,事象間の内在的関係を探究し,特徴の識別能力を高める。
論文 参考訳(メタデータ) (2024-09-28T05:54:20Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Hyperbolic Face Anti-Spoofing [21.981129022417306]
双曲空間におけるよりリッチな階層的および差別的なスプーフィングキューを学習することを提案する。
単調なFAS学習では、特徴埋め込みはポアンカーボールに投影され、双対対対数回帰層は分類のためにカスケードされる。
双曲空間における消失勾配問題を緩和するために,双曲モデルのトレーニング安定性を高めるために,新しい特徴クリッピング法を提案する。
論文 参考訳(メタデータ) (2023-08-17T17:18:21Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic
Space [17.30264225835736]
HyperVDは、モデル識別を改善するために、双曲空間にスニペットの埋め込みを学ぶ新しいフレームワークである。
我々のフレームワークはマルチモーダル核融合のためのデトゥール核融合モジュールで構成されている。
この空間でスニペット表現を学習することで、このフレームワークは暴力的な出来事と通常の出来事のセマンティックな差異を効果的に学習する。
論文 参考訳(メタデータ) (2023-05-30T07:18:56Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。