論文の概要: Sharingan: Extract User Action Sequence from Desktop Recordings
- arxiv url: http://arxiv.org/abs/2411.08768v1
- Date: Wed, 13 Nov 2024 16:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:25.468211
- Title: Sharingan: Extract User Action Sequence from Desktop Recordings
- Title(参考訳): Sharingan: デスクトップ記録からユーザアクションシーケンスを抽出する
- Authors: Yanting Chen, Yi Ren, Xiaoting Qin, Jue Zhang, Kehong Yuan, Lu Han, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang,
- Abstract要約: 本稿では,デスクトップ記録からユーザアクションを抽出する2つの新しい手法を提案する。
Direct Frame-Based Approach (DF)は、サンプルフレームを直接Vision-Language Models (VLM) に入力し、differial Frame-Based Approach (DiffF) はコンピュータビジョン技術を介して検出された明示的なフレーム差分を組み込む。
その結果,DF手法はユーザ動作の同定において70%から80%の精度を達成でき,抽出した動作シーケンスはロボット処理自動化でも再生可能であることがわかった。
- 参考スコア(独自算出の注目度): 39.654197480435656
- License:
- Abstract: Video recordings of user activities, particularly desktop recordings, offer a rich source of data for understanding user behaviors and automating processes. However, despite advancements in Vision-Language Models (VLMs) and their increasing use in video analysis, extracting user actions from desktop recordings remains an underexplored area. This paper addresses this gap by proposing two novel VLM-based methods for user action extraction: the Direct Frame-Based Approach (DF), which inputs sampled frames directly into VLMs, and the Differential Frame-Based Approach (DiffF), which incorporates explicit frame differences detected via computer vision techniques. We evaluate these methods using a basic self-curated dataset and an advanced benchmark adapted from prior work. Our results show that the DF approach achieves an accuracy of 70% to 80% in identifying user actions, with the extracted action sequences being re-playable though Robotic Process Automation. We find that while VLMs show potential, incorporating explicit UI changes can degrade performance, making the DF approach more reliable. This work represents the first application of VLMs for extracting user action sequences from desktop recordings, contributing new methods, benchmarks, and insights for future research.
- Abstract(参考訳): ユーザアクティビティ、特にデスクトップ記録のビデオ録画は、ユーザの振る舞いや自動化プロセスを理解するための豊富なデータソースを提供する。
しかし、VLM(Vision-Language Models)の進歩とビデオ解析における利用の増加にもかかわらず、デスクトップ記録からのユーザアクションの抽出は未探索領域のままである。
本稿では,ユーザアクション抽出のための新たな2つの手法として,サンプルフレームを直接VLMに入力するダイレクトフレームベースアプローチ(DF)と,コンピュータビジョン技術によって検出された明示的なフレーム差を組み込んだディファレンシャルフレームベースアプローチ(DiffF)を提案する。
基礎的な自己計算データセットと事前の作業から適応した高度なベンチマークを用いて,これらの手法を評価する。
その結果,DF手法はユーザ動作の同定において70%から80%の精度を達成でき,抽出した動作シーケンスはロボット処理自動化でも再生可能であることがわかった。
VLMは潜在的な可能性を示すが、明示的なUI変更を取り入れることでパフォーマンスが低下し、DFアプローチの信頼性が向上する。
この研究は、デスクトップ記録からユーザアクションシーケンスを抽出し、新しい方法、ベンチマーク、将来の研究のための洞察を提供するVLMの最初の応用である。
関連論文リスト
- JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling [8.463489896549161]
2段階ビデオローカライゼーション(英語: Two-stage Video Localization, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的なタスクである。
JARViS(Joint Actor-scene context Relation Modeling)と呼ばれる2段階のVADフレームワークを提案する。
JARViSは、トランスフォーマーアテンションを用いて、空間的および時間的次元にわたって世界中に分布するクロスモーダルアクションセマンティクスを集約する。
論文 参考訳(メタデータ) (2024-08-07T08:08:08Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Learning Sequential Descriptors for Sequence-based Visual Place
Recognition [14.738954189759156]
ロボット工学において、視覚的位置認識(Visual Place Recognition)とは、ロボットの現在位置の仮説を生成するためのビデオストリームとして入力される連続的なプロセスである。
本研究は、逐次記述子を用いた技法の詳細な分類法を提案し、個々の画像から情報を融合するための異なるメカニズムを強調した。
論文 参考訳(メタデータ) (2022-07-08T12:52:04Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Event-VPR: End-to-End Weakly Supervised Network Architecture for
Event-based Visual Place Recognition [9.371066729205268]
イベントカメラのためのエンドツーエンドの視覚的位置認識ネットワークを提案する。
提案アルゴリズムは、まず、ESTボクセルグリッドを用いてイベントストリームを特徴付け、次いで畳み込みネットワークを用いて特徴を抽出し、最後に改良されたVLADネットワークを用いて特徴を集約する。
実験結果から,提案手法は難易度の高いシナリオにおいて,より優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-06T11:32:04Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。