論文の概要: VQPy: An Object-Oriented Approach to Modern Video Analytics
- arxiv url: http://arxiv.org/abs/2311.01623v4
- Date: Mon, 3 Jun 2024 22:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 14:07:02.702199
- Title: VQPy: An Object-Oriented Approach to Modern Video Analytics
- Title(参考訳): VQPy: 現代的なビデオ分析のためのオブジェクト指向アプローチ
- Authors: Shan Yu, Zhenting Zhu, Yu Chen, Hanchen Xu, Pengzhan Zhao, Yang Wang, Arthi Padmanabhan, Hugo Latapie, Harry Xu,
- Abstract要約: ビデオ分析は、現代のビデオシステムやサービスで広く使われている。
ビデオ分析のためのオブジェクト指向Pythonアプローチを開発した。
ビデオオブジェクトは従来のオブジェクト指向言語によってモデル化されている。
- 参考スコア(独自算出の注目度): 11.829361660803603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video analytics is widely used in contemporary systems and services. At the forefront of video analytics are video queries that users develop to find objects of particular interest. Building upon the insight that video objects (e.g., human, animals, cars, etc.), the center of video analytics, are similar in spirit to objects modeled by traditional object-oriented languages, we propose to develop an object-oriented approach to video analytics. This approach, named VQPy, consists of a frontend$\unicode{x2015}$a Python variant with constructs that make it easy for users to express video objects and their interactions$\unicode{x2015}$as well as an extensible backend that can automatically construct and optimize pipelines based on video objects. We have implemented and open-sourced VQPy, which has been productized in Cisco as part of its DeepVision framework.
- Abstract(参考訳): ビデオ分析は現代のシステムやサービスで広く使われている。
ビデオ分析の最前線は、ユーザが特定の関心のあるオブジェクトを見つけるために開発するビデオクエリである。
ビデオ分析の中心である映像オブジェクト(人間、動物、車など)は、従来のオブジェクト指向言語でモデル化されたオブジェクトと精神的に類似しているという知見に基づいて、ビデオ分析のためのオブジェクト指向アプローチを開発することを提案する。
VQPyという名前のこのアプローチは、フロントエンド$\unicode{x2015}$a Python variantと、ビデオオブジェクトとそのインタラクションを簡単に表現できるコンストラクトと、ビデオオブジェクトに基づいてパイプラインを自動構築および最適化する拡張可能なバックエンドで構成されている。
私たちは、DeepVisionフレームワークの一部としてCiscoで製品化されているVQPyを実装、オープンソース化しました。
関連論文リスト
- Artemis: Towards Referential Understanding in Complex Videos [61.756640718014154]
本稿では,ビデオに基づく参照理解をより微細なレベルに押し上げるMLLMであるArtemisを紹介する。
アルテミスはどんなビデオフレームにもバウンディングボックスのある自然言語の質問を受け取り、ビデオ全体の中で参照対象を説明する。
新たに確立されたVideoRef45Kデータセット上で,45KビデオQAペアを用いてArtemisをトレーニングし,計算効率のよい3段階トレーニング手順を設計する。
論文 参考訳(メタデータ) (2024-06-01T01:43:56Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Single-Stage Visual Query Localization in Egocentric Videos [79.71065005161566]
エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。
我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
論文 参考訳(メタデータ) (2023-06-15T17:57:28Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
ビデオに関する詳細な会話を理解し、生成することができる。
我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。
対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-12-01T17:06:39Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。