論文の概要: Detection, Retrieval, and Explanation Unified: A Violence Detection System Based on Knowledge Graphs and GAT
- arxiv url: http://arxiv.org/abs/2501.06224v1
- Date: Tue, 07 Jan 2025 09:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 17:24:54.319420
- Title: Detection, Retrieval, and Explanation Unified: A Violence Detection System Based on Knowledge Graphs and GAT
- Title(参考訳): 知識グラフとGATに基づくバイオレンス検出システム
- Authors: Wen-Dong Jiang, Chih-Yung Chang, Diptendu Sinha Roy,
- Abstract要約: 本稿では,TIO(Three-in-One)システムと呼ばれる新しい暴力検出システムを提案する。
システムは、暴力行為の可能性のある動画に対して、大きな言語モデルによって生成されたテキスト記述とともに、各ビデオフレームを処理する。
知識グラフを構築するための高次元埋め込みを生成するためにImageBindを使用し、推論にGATを使用し、ビデオ埋め込み機能を抽出するために軽量な時系列モジュールを適用している。
- 参考スコア(独自算出の注目度): 1.9963385352536616
- License:
- Abstract: Recently, violence detection systems developed using unified multimodal models have achieved significant success and attracted widespread attention. However, most of these systems face two critical challenges: the lack of interpretability as black-box models and limited functionality, offering only classification or retrieval capabilities. To address these challenges, this paper proposes a novel interpretable violence detection system, termed the Three-in-One (TIO) System. The TIO system integrates knowledge graphs (KG) and graph attention networks (GAT) to provide three core functionalities: detection, retrieval, and explanation. Specifically, the system processes each video frame along with text descriptions generated by a large language model (LLM) for videos containing potential violent behavior. It employs ImageBind to generate high-dimensional embeddings for constructing a knowledge graph, uses GAT for reasoning, and applies lightweight time series modules to extract video embedding features. The final step connects a classifier and retriever for multi-functional outputs. The interpretability of KG enables the system to verify the reasoning process behind each output. Additionally, the paper introduces several lightweight methods to reduce the resource consumption of the TIO system and enhance its efficiency. Extensive experiments conducted on the XD-Violence and UCF-Crime datasets validate the effectiveness of the proposed system. A case study further reveals an intriguing phenomenon: as the number of bystanders increases, the occurrence of violent behavior tends to decrease.
- Abstract(参考訳): 近年,統合マルチモーダルモデルを用いた暴力検知システムが大きな成功を収め,注目を集めている。
しかしながら、これらのシステムの多くは、2つの重要な課題に直面している。ブラックボックスモデルとしての解釈可能性の欠如と限定的な機能であり、分類や検索機能のみを提供する。
これらの課題に対処するため,本研究では,TIO(Three-in-One)システムと呼ばれる新たな暴力検出システムを提案する。
TIOシステムは、知識グラフ(KG)とグラフ注意ネットワーク(GAT)を統合し、検出、検索、説明の3つのコア機能を提供する。
具体的には,大規模言語モデル(LLM)が生成したテキスト記述と合わせて,暴力行為の可能性のある映像の処理を行う。
知識グラフを構築するための高次元埋め込みを生成するためにImageBindを使用し、推論にGATを使用し、ビデオ埋め込み機能を抽出するために軽量な時系列モジュールを適用している。
最後のステップは、多機能出力のための分類器と検索器を接続する。
KGの解釈可能性により、システムは各出力の背後にある推論プロセスを検証することができる。
さらに,TIOシステムの資源消費を削減し,効率を向上させるために,いくつかの軽量な手法を提案する。
XD-Violence と UCF-Crime のデータセットを用いた大規模な実験により,提案システムの有効性が検証された。
ケーススタディでは、傍観者の数が増加するにつれ、暴力的な行動の発生が減少する傾向にあるという興味深い現象が明らかにされている。
関連論文リスト
- EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.91826112815384]
引用ベースのQAシステムは2つの欠点に悩まされている。
彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。
システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文 参考訳(メタデータ) (2024-06-14T19:40:38Z) - Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
集約表現から比較的単純なモデルに知識を蒸留することで,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - Detecting Complex Multi-step Attacks with Explainable Graph Neural Network [22.36690129820124]
複雑な多段階攻撃は、多くの重要なインフラに大きな損傷を与えた。
このような攻撃を検出するため、グラフニューラルネットワークに基づく手法は有望な結果を示している。
しかし、既存のメソッドは、実際にデプロイする際にも、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-05-18T16:47:21Z) - Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection [9.145305176998447]
弱教師付きマルチモーダル暴力検出は、複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としている。
本稿では,情報冗長性,モダリティの不均衡,モダリティの非同期性といった課題に明示的に対処する,弱教師付きMVD法を提案する。
最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-08T15:27:08Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - A Survey of Graph-based Deep Learning for Anomaly Detection in
Distributed Systems [2.3551989288556774]
分散システムにおける異常を識別するグラフベースのアルゴリズムの可能性を探る。
私たちの目標の1つは、現実の課題に対処する能力を概念的に分析するグラフベースのアプローチについて、詳細な調査を行うことです。
本研究は,その分野における現状研究論文の概要と,その特性を比較比較・比較するものである。
論文 参考訳(メタデータ) (2022-06-08T20:19:28Z) - Type-aware Embeddings for Multi-Hop Reasoning over Knowledge Graphs [18.56742938427262]
実生活知識グラフ(KG)に対するマルチホップ推論は非常に難しい問題である。
この問題に対処するため、最近、論理的クエリとKGを併用した有望なアプローチを導入している。
本稿では,クエリにおけるエンティティと関係表現を強化する新しいTEMP(TypE-aware Message Passing)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-02T10:05:13Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。