論文の概要: Visual Semantic Multimedia Event Model for Complex Event Detection in
Video Streams
- arxiv url: http://arxiv.org/abs/2009.14525v1
- Date: Wed, 30 Sep 2020 09:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 00:21:18.141392
- Title: Visual Semantic Multimedia Event Model for Complex Event Detection in
Video Streams
- Title(参考訳): ビデオストリームにおける複合イベント検出のための視覚意味マルチメディアイベントモデル
- Authors: Piyush Yadav, Edward Curry
- Abstract要約: 複雑なイベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンをマイニングし、タイムリーな方法でユーザに通知を送信する。
低レベルメディアストリームから構造化知識表現を作成することで、複雑な構造化イベント処理を可能にする視覚イベント仕様法を提案する。
- 参考スコア(独自算出の注目度): 5.53329677986653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia data is highly expressive and has traditionally been very
difficult for a machine to interpret. Middleware systems such as complex event
processing (CEP) mine patterns from data streams and send notifications to
users in a timely fashion. Presently, CEP systems have inherent limitations to
process multimedia streams due to its data complexity and the lack of an
underlying structured data model. In this work, we present a visual event
specification method to enable complex multimedia event processing by creating
a semantic knowledge representation derived from low-level media streams. The
method enables the detection of high-level semantic concepts from the media
streams using an ensemble of pattern detection capabilities. The semantic model
is aligned with a multimedia CEP engine deep learning models to give
flexibility to end-users to build rules using spatiotemporal event calculus.
This enhances CEP capability to detect patterns from media streams and bridge
the semantic gap between highly expressive knowledge-centric user queries to
the low-level features of the multi-media data. We have built a small traffic
event ontology prototype to validate the approach and performance. The paper
contribution is threefold: i) we present a knowledge graph representation for
multimedia streams, ii) a hierarchical event network to detect visual patterns
from media streams and iii) define complex pattern rules for complex multimedia
event reasoning using event calculus
- Abstract(参考訳): マルチメディアデータは表現力が高く、伝統的に機械が解釈するのが非常に困難であった。
複雑なイベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンをマイニングし、タイムリーな方法でユーザに通知を送信する。
現在、cepシステムは、データの複雑さと基盤となる構造化データモデルがないため、マルチメディアストリームの処理に固有の制限がある。
本稿では,低レベルメディアストリームから派生した意味的知識表現を作成することで,複雑なマルチメディアイベント処理を可能にする視覚イベント仕様を提案する。
パターン検出機能のアンサンブルを用いて、メディアストリームから高レベルなセマンティック概念を検出することができる。
セマンティックモデルはマルチメディアCEPエンジンのディープラーニングモデルと一致し、時空間のイベント計算を使用してルールを構築するエンドユーザに柔軟性を提供する。
これにより、メディアストリームからパターンを検出し、高度に表現力のある知識中心のユーザクエリとマルチメディアデータの低レベルの特徴とのセマンティックギャップを埋めるCEP機能が強化される。
私たちはアプローチとパフォーマンスを検証するために、小さなトラフィックイベントオントロジーのプロトタイプを構築しました。
論文の寄稿は3倍です
i)マルチメディアストリームのための知識グラフ表現を提案する。
二 メディアストリームから視覚的なパターンを検知する階層的イベントネットワーク
iii)イベント計算を用いた複合マルチメディアイベント推論のための複雑なパターンルールの定義
関連論文リスト
- Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Superevents: Towards Native Semantic Segmentation for Event-based
Cameras [13.099264910430986]
最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-13T05:49:41Z) - METEOR: Learning Memory and Time Efficient Representations from
Multi-modal Data Streams [19.22829945777267]
本稿では,Memory and Time Efficient Online Representation Learning(METEOR)について紹介する。
従来のメモリ集約型埋め込みと比較して,METEORはメモリ使用量を約80%削減しつつ,表現の質を保っていることを示す。
論文 参考訳(メタデータ) (2020-07-23T08:18:02Z) - VidCEP: Complex Event Processing Framework to Detect Spatiotemporal
Patterns in Video Streams [5.53329677986653]
複合イベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンを抽出し、タイムリーな方法でユーザに通知を送信する。
現在のCEPシステムは、非構造化データモデルと表現型クエリ言語のために、ビデオストリームのクエリに固有の制限がある。
ビデオストリームのための,インメモリ,ほぼリアルタイムな複合イベントマッチングフレームワークであるVidCEPを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:43:37Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。