Fugu-MT 論文翻訳(概要): Visual Semantic Multimedia Event Model for Complex Event Detection in Video Streams

論文の概要: Visual Semantic Multimedia Event Model for Complex Event Detection in Video Streams

arxiv url: http://arxiv.org/abs/2009.14525v1
Date: Wed, 30 Sep 2020 09:22:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 00:21:18.141392
Title: Visual Semantic Multimedia Event Model for Complex Event Detection in Video Streams
Title（参考訳）: ビデオストリームにおける複合イベント検出のための視覚意味マルチメディアイベントモデル
Authors: Piyush Yadav, Edward Curry
Abstract要約: 複雑なイベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンをマイニングし、タイムリーな方法でユーザに通知を送信する。低レベルメディアストリームから構造化知識表現を作成することで、複雑な構造化イベント処理を可能にする視覚イベント仕様法を提案する。
参考スコア（独自算出の注目度）: 5.53329677986653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimedia data is highly expressive and has traditionally been very difficult for a machine to interpret. Middleware systems such as complex event processing (CEP) mine patterns from data streams and send notifications to users in a timely fashion. Presently, CEP systems have inherent limitations to process multimedia streams due to its data complexity and the lack of an underlying structured data model. In this work, we present a visual event specification method to enable complex multimedia event processing by creating a semantic knowledge representation derived from low-level media streams. The method enables the detection of high-level semantic concepts from the media streams using an ensemble of pattern detection capabilities. The semantic model is aligned with a multimedia CEP engine deep learning models to give flexibility to end-users to build rules using spatiotemporal event calculus. This enhances CEP capability to detect patterns from media streams and bridge the semantic gap between highly expressive knowledge-centric user queries to the low-level features of the multi-media data. We have built a small traffic event ontology prototype to validate the approach and performance. The paper contribution is threefold: i) we present a knowledge graph representation for multimedia streams, ii) a hierarchical event network to detect visual patterns from media streams and iii) define complex pattern rules for complex multimedia event reasoning using event calculus
Abstract（参考訳）: マルチメディアデータは表現力が高く、伝統的に機械が解釈するのが非常に困難であった。複雑なイベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンをマイニングし、タイムリーな方法でユーザに通知を送信する。現在、cepシステムは、データの複雑さと基盤となる構造化データモデルがないため、マルチメディアストリームの処理に固有の制限がある。本稿では,低レベルメディアストリームから派生した意味的知識表現を作成することで,複雑なマルチメディアイベント処理を可能にする視覚イベント仕様を提案する。パターン検出機能のアンサンブルを用いて、メディアストリームから高レベルなセマンティック概念を検出することができる。セマンティックモデルはマルチメディアCEPエンジンのディープラーニングモデルと一致し、時空間のイベント計算を使用してルールを構築するエンドユーザに柔軟性を提供する。これにより、メディアストリームからパターンを検出し、高度に表現力のある知識中心のユーザクエリとマルチメディアデータの低レベルの特徴とのセマンティックギャップを埋めるCEP機能が強化される。私たちはアプローチとパフォーマンスを検証するために、小さなトラフィックイベントオントロジーのプロトタイプを構築しました。論文の寄稿は3倍です i)マルチメディアストリームのための知識グラフ表現を提案する。二メディアストリームから視覚的なパターンを検知する階層的イベントネットワーク iii)イベント計算を用いた複合マルチメディアイベント推論のための複雑なパターンルールの定義

関連論文リスト

ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization [14.920403124245867]
マルチステージ・セマンティック・ガイダンスとマルチイベント・リレーション・モデリングを導入する。これにより、音声・視覚イベントの階層的セマンティック理解と、イベント依存の適応的抽出が可能になる。提案手法は,パラメータや計算負荷を大幅に削減しつつ,最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2025-07-14T05:42:00Z)
PresentAgent: Multimodal Agent for Presentation Video Generation [30.274831875701217]
長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
論文参考訳（メタデータ） (2025-07-05T13:24:15Z)
PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling [78.61911985138795]
On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。本稿では,(a)予測的マルチモーダル・フューチャー・モデリングが特徴とする予測的未来・モデリング・フレームワークを提案する。実験により、PreFMは、パラメータが大幅に少ない大きなマージンで最先端の手法を著しく上回ることが示された。
論文参考訳（メタデータ） (2025-05-29T06:46:19Z)
A New Hybrid Intelligent Approach for Multimodal Detection of Suspected Disinformation on TikTok [0.0]
本研究では,深層学習の計算能力とファジィ論理の解釈可能性を組み合わせて,TikTokビデオにおける疑わしい偽情報を検出するハイブリッドフレームワークを提案する。この手法は、テキスト、音声、ビデオからデータを抽出し評価するマルチモーダル特徴分析装置と、ファジィ論理に基づくマルチモーダル情報検出装置の2つのコアコンポーネントから構成される。
論文参考訳（メタデータ） (2025-02-09T12:37:48Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文参考訳（メタデータ） (2024-10-07T17:59:48Z)
Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-08-16T16:14:36Z)
MMUTF: Multimodal Multimedia Event Argument Extraction with Unified Template Filling [4.160176518973659]
テキストプロンプトを介してテキストと視覚のモダリティを接続する統合テンプレートフィリングモデルを提案する。我々のシステムはテキストEAEのSOTAを+7%上回り、マルチメディアEAEの2番目に高いシステムよりも一般的に優れている。
論文参考訳（メタデータ） (2024-06-18T09:14:17Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Support-set based Multi-modal Representation Enhancement for Video Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文参考訳（メタデータ） (2022-05-19T03:40:29Z)
Reliable Shot Identification for Complex Event Detection via Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-10-12T11:46:56Z)
METEOR: Learning Memory and Time Efficient Representations from Multi-modal Data Streams [19.22829945777267]
本稿では,Memory and Time Efficient Online Representation Learning(METEOR)について紹介する。従来のメモリ集約型埋め込みと比較して,METEORはメモリ使用量を約80%削減しつつ,表現の質を保っていることを示す。
論文参考訳（メタデータ） (2020-07-23T08:18:02Z)
VidCEP: Complex Event Processing Framework to Detect Spatiotemporal Patterns in Video Streams [5.53329677986653]
複合イベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンを抽出し、タイムリーな方法でユーザに通知を送信する。現在のCEPシステムは、非構造化データモデルと表現型クエリ言語のために、ビデオストリームのクエリに固有の制限がある。ビデオストリームのための,インメモリ,ほぼリアルタイムな複合イベントマッチングフレームワークであるVidCEPを提案する。
論文参考訳（メタデータ） (2020-07-15T16:43:37Z)
Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文参考訳（メタデータ） (2020-04-10T06:31:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。