論文の概要: SketchQL Demonstration: Zero-shot Video Moment Querying with Sketches
- arxiv url: http://arxiv.org/abs/2405.18334v3
- Date: Mon, 1 Jul 2024 02:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:50:34.252795
- Title: SketchQL Demonstration: Zero-shot Video Moment Querying with Sketches
- Title(参考訳): SketchQLデモ - Sketchesによるゼロショットビデオモーメントクエリ
- Authors: Renzhi Wu, Pramod Chunduri, Dristi J Shah, Ashmitha Julius Aravind, Ali Payani, Xu Chu, Joy Arulraj, Kexin Rong,
- Abstract要約: スケッチベースのクエリインタフェースでビデオモーメントを検索するビデオデータベース管理システム(VDBMS)であるSketchQLを提案する。
このインターフェースでは、単純なマウスドラッグアンドドロップ操作でオブジェクトのトラジェクトリイベントを指定できる。
SketchQLは、ビデオ上の類似検索を実行し、ビジュアルクエリに最も近いクリップを特定することで、ゼロショットビデオモーメント検索を実現する。
- 参考スコア(独自算出の注目度): 12.759166340737591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we will present SketchQL, a video database management system (VDBMS) for retrieving video moments with a sketch-based query interface. This novel interface allows users to specify object trajectory events with simple mouse drag-and-drop operations. Users can use trajectories of single objects as building blocks to compose complex events. Using a pre-trained model that encodes trajectory similarity, SketchQL achieves zero-shot video moments retrieval by performing similarity searches over the video to identify clips that are the most similar to the visual query. In this demonstration, we introduce the graphic user interface of SketchQL and detail its functionalities and interaction mechanisms. We also demonstrate the end-to-end usage of SketchQL from query composition to video moments retrieval using real-world scenarios.
- Abstract(参考訳): 本稿では、スケッチベースのクエリインタフェースでビデオモーメントを検索するビデオデータベース管理システム(VDBMS)であるSketchQLについて述べる。
このインターフェースでは、単純なマウスドラッグアンドドロップ操作でオブジェクトのトラジェクトリイベントを指定できる。
複雑なイベントを構成するために、単一のオブジェクトのトラジェクトリをビルディングブロックとして使用することができる。
トラジェクトリ類似性を符号化した事前トレーニングモデルを使用して、SketchQLは、ビデオ上で類似性検索を実行してゼロショットビデオモーメント検索を実現し、ビジュアルクエリに最も近いクリップを識別する。
このデモでは、SketchQLのグラフィックユーザインタフェースを導入し、その機能とインタラクションメカニズムを詳述する。
また,クエリ合成からリアルタイムシナリオを用いたビデオモーメント検索まで,SketchQLのエンドツーエンド使用例を示す。
関連論文リスト
- UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Single-Stage Visual Query Localization in Egocentric Videos [79.71065005161566]
エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。
我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
論文 参考訳(メタデータ) (2023-06-15T17:57:28Z) - Sketch-based Video Object Localization [18.75339976049454]
我々はSketch-Video Attention Network (SVANet)を構築し、スケッチとビデオの間の領域ギャップを埋める。
SVANetは、学習可能なオブジェクトトークン、クエリスケッチ、ビデオ間のインタラクションをモデル化するクロスモーダルトランスフォーマーを備えている。
SVANetは、クエリスケッチとビデオオブジェクトのマッピングをうまく学習し、SVOLベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-04-02T05:05:58Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - VidCEP: Complex Event Processing Framework to Detect Spatiotemporal
Patterns in Video Streams [5.53329677986653]
複合イベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンを抽出し、タイムリーな方法でユーザに通知を送信する。
現在のCEPシステムは、非構造化データモデルと表現型クエリ言語のために、ビデオストリームのクエリに固有の制限がある。
ビデオストリームのための,インメモリ,ほぼリアルタイムな複合イベントマッチングフレームワークであるVidCEPを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:43:37Z) - Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文 参考訳(メタデータ) (2020-06-27T09:39:04Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。