論文の概要: All Eyes on the Workflow: Automated and Efficient Event Discovery from Video Streams
- arxiv url: http://arxiv.org/abs/2604.22476v1
- Date: Fri, 24 Apr 2026 11:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.442209
- Title: All Eyes on the Workflow: Automated and Efficient Event Discovery from Video Streams
- Title(参考訳): ワークフローのすべて - ビデオストリームからの自動化された効率的なイベント発見
- Authors: Marco Pegoraro, Jonas Seng, Dustin Heller, Wil M. P. van der Aalst, Kristian Kersting,
- Abstract要約: フレームを特徴ベクトルに変換することによって,ビデオからイベントデータを抽出するSnapLogを提案する。
次に、一般化された数ショット分類を用いて、ラベルをビデオセグメントに割り当て、イベントとして解釈可能なフレームのラベル付き、タイムスタンプ付きサブシーケンスを得る。
提案手法は,ビデオの過程を正確に反映したログを生成する。
- 参考スコア(独自算出の注目度): 33.04989603180585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disciplines such as business process management and process mining aid organizations by discovering insights about processes on the basis of recorded event data. However, an obstacle to process analysis is data multi-modality: for instance, data in video form are not directly interpretable as events. In this work, we present SnapLog, an approach to extract event data from videos by converting frames to feature vectors using image embeddings and performing temporal segmentation through frame-wise similarity matrices. A generalized few-shot classification is then used to assign labels to the video segments, yielding labeled, timestamped sub-sequences of frames that are interpretable as events. Conventional process mining techniques can be used to analyze the resulting data. We show that our approach produces logs that accurately reflect the process in the videos.
- Abstract(参考訳): ビジネスプロセス管理やプロセスマイニング支援組織といった分野は、記録されたイベントデータに基づいてプロセスに関する洞察を発見することによって行われる。
しかし、プロセス分析の障害は、例えば、ビデオ形式のデータは、直接イベントとして解釈できない、というマルチモーダリティである。
本研究では,フレームを画像埋め込みを用いて特徴ベクトルに変換し,フレームワイド類似度行列による時間的セグメンテーションを行うことにより,ビデオからイベントデータを抽出するSnapLogを提案する。
次に、一般化された数ショット分類を用いて、ラベルをビデオセグメントに割り当て、イベントとして解釈可能なフレームのラベル付き、タイムスタンプ付きサブシーケンスを得る。
従来のプロセスマイニング技術は、結果のデータを分析するのに使用することができる。
提案手法は,ビデオの過程を正確に反映したログを生成する。
関連論文リスト
- CAVIS: Context-Aware Video Instance Segmentation [12.71520768233772]
本稿では,コンテキスト対応型ビデオインスタンス(CAVIS)について紹介する。
この情報を効率的に抽出し活用するために、コンテキスト認識型インスタンス追跡器(CAIT)を提案する。
フレーム間のオブジェクトレベルの特徴の整合性を確保するため,プロトタイプ型クロスフレームコントラスト(PCC)損失を設計する。
論文 参考訳(メタデータ) (2024-07-03T11:11:16Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Detecting Anomalous Events in Object-centric Business Processes via
Graph Neural Networks [55.583478485027]
本研究では,ビジネスプロセスにおける異常検出のための新しいフレームワークを提案する。
まず、属性グラフとしてオブジェクト中心のイベントログのプロセス依存性を再構築する。
次に、異常事象を検出するために、グラフ畳み込みオートエンコーダアーキテクチャを用いる。
論文 参考訳(メタデータ) (2024-02-14T14:17:56Z) - Avoiding Post-Processing with Event-Based Detection in Biomedical
Signals [69.34035527763916]
学習対象としてイベントを直接扱うイベントベースのモデリングフレームワークを提案する。
イベントベースのモデリング(後処理なし)は、広範囲な後処理を伴うエポックベースのモデリングと同等以上のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-09-22T13:44:13Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Shedding Light on Blind Spots: Developing a Reference Architecture to
Leverage Video Data for Process Mining [0.0]
本稿では,コンピュータビジョンとプロセスマイニングのギャップを埋めるための参照アーキテクチャを提案する。
提案した参照アーキテクチャのプロトタイプインスタンス化により,非構造化ビデオデータからプロセス関連イベントのほとんどを自動的に抽出することができる。
論文 参考訳(メタデータ) (2020-10-21T20:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。