論文の概要: Visual Semantic Multimedia Event Model for Complex Event Detection in
Video Streams
- arxiv url: http://arxiv.org/abs/2009.14525v1
- Date: Wed, 30 Sep 2020 09:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 00:21:18.141392
- Title: Visual Semantic Multimedia Event Model for Complex Event Detection in
Video Streams
- Title(参考訳): ビデオストリームにおける複合イベント検出のための視覚意味マルチメディアイベントモデル
- Authors: Piyush Yadav, Edward Curry
- Abstract要約: 複雑なイベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンをマイニングし、タイムリーな方法でユーザに通知を送信する。
低レベルメディアストリームから構造化知識表現を作成することで、複雑な構造化イベント処理を可能にする視覚イベント仕様法を提案する。
- 参考スコア(独自算出の注目度): 5.53329677986653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia data is highly expressive and has traditionally been very
difficult for a machine to interpret. Middleware systems such as complex event
processing (CEP) mine patterns from data streams and send notifications to
users in a timely fashion. Presently, CEP systems have inherent limitations to
process multimedia streams due to its data complexity and the lack of an
underlying structured data model. In this work, we present a visual event
specification method to enable complex multimedia event processing by creating
a semantic knowledge representation derived from low-level media streams. The
method enables the detection of high-level semantic concepts from the media
streams using an ensemble of pattern detection capabilities. The semantic model
is aligned with a multimedia CEP engine deep learning models to give
flexibility to end-users to build rules using spatiotemporal event calculus.
This enhances CEP capability to detect patterns from media streams and bridge
the semantic gap between highly expressive knowledge-centric user queries to
the low-level features of the multi-media data. We have built a small traffic
event ontology prototype to validate the approach and performance. The paper
contribution is threefold: i) we present a knowledge graph representation for
multimedia streams, ii) a hierarchical event network to detect visual patterns
from media streams and iii) define complex pattern rules for complex multimedia
event reasoning using event calculus
- Abstract(参考訳): マルチメディアデータは表現力が高く、伝統的に機械が解釈するのが非常に困難であった。
複雑なイベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンをマイニングし、タイムリーな方法でユーザに通知を送信する。
現在、cepシステムは、データの複雑さと基盤となる構造化データモデルがないため、マルチメディアストリームの処理に固有の制限がある。
本稿では,低レベルメディアストリームから派生した意味的知識表現を作成することで,複雑なマルチメディアイベント処理を可能にする視覚イベント仕様を提案する。
パターン検出機能のアンサンブルを用いて、メディアストリームから高レベルなセマンティック概念を検出することができる。
セマンティックモデルはマルチメディアCEPエンジンのディープラーニングモデルと一致し、時空間のイベント計算を使用してルールを構築するエンドユーザに柔軟性を提供する。
これにより、メディアストリームからパターンを検出し、高度に表現力のある知識中心のユーザクエリとマルチメディアデータの低レベルの特徴とのセマンティックギャップを埋めるCEP機能が強化される。
私たちはアプローチとパフォーマンスを検証するために、小さなトラフィックイベントオントロジーのプロトタイプを構築しました。
論文の寄稿は3倍です
i)マルチメディアストリームのための知識グラフ表現を提案する。
二 メディアストリームから視覚的なパターンを検知する階層的イベントネットワーク
iii)イベント計算を用いた複合マルチメディアイベント推論のための複雑なパターンルールの定義
関連論文リスト
- A New Hybrid Intelligent Approach for Multimodal Detection of Suspected Disinformation on TikTok [0.0]
本研究では,深層学習の計算能力とファジィ論理の解釈可能性を組み合わせて,TikTokビデオにおける疑わしい偽情報を検出するハイブリッドフレームワークを提案する。
この手法は、テキスト、音声、ビデオからデータを抽出し評価するマルチモーダル特徴分析装置と、ファジィ論理に基づくマルチモーダル情報検出装置の2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-02-09T12:37:48Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - MMUTF: Multimodal Multimedia Event Argument Extraction with Unified Template Filling [4.160176518973659]
テキストプロンプトを介してテキストと視覚のモダリティを接続する統合テンプレートフィリングモデルを提案する。
我々のシステムはテキストEAEのSOTAを+7%上回り、マルチメディアEAEの2番目に高いシステムよりも一般的に優れている。
論文 参考訳(メタデータ) (2024-06-18T09:14:17Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - METEOR: Learning Memory and Time Efficient Representations from
Multi-modal Data Streams [19.22829945777267]
本稿では,Memory and Time Efficient Online Representation Learning(METEOR)について紹介する。
従来のメモリ集約型埋め込みと比較して,METEORはメモリ使用量を約80%削減しつつ,表現の質を保っていることを示す。
論文 参考訳(メタデータ) (2020-07-23T08:18:02Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。