論文の概要: VQPy: An Object-Oriented Approach to Modern Video Analytics
- arxiv url: http://arxiv.org/abs/2311.01623v1
- Date: Fri, 3 Nov 2023 16:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:51:40.788699
- Title: VQPy: An Object-Oriented Approach to Modern Video Analytics
- Title(参考訳): vqpy: 現代のビデオ分析へのオブジェクト指向アプローチ
- Authors: Shan Yu, Zhenting Zhu, Yu Chen, Hanchen Xu, Pengzhan Zhao, Yang Wang,
Arthi Padmanabhan, Hugo Latapie, Harry Xu
- Abstract要約: ビデオ分析は、現代のビデオシステムやサービスで広く使われている。
ビデオ分析のためのオブジェクト指向Pythonアプローチを開発した。
ビデオオブジェクトは従来のオブジェクト指向言語によってモデル化されている。
- 参考スコア(独自算出の注目度): 12.2742152483923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video analytics is widely used in contemporary systems and services. At the
forefront of video analytics are video queries that users develop to find
objects of particular interest. Building upon the insight that video objects
(e.g., human, animals, cars, etc.), the center of video analytics, are similar
in spirit to objects modeled by traditional object-oriented languages, we
propose to develop an object-oriented approach to video analytics. This
approach, named VQPy, consists of a frontend$\unicode{x2015}$a Python variant
with constructs that make it easy for users to express video objects and their
interactions$\unicode{x2015}$as well as an extensible backend that can
automatically construct and optimize pipelines based on video objects. We have
implemented and open-sourced VQPy, which has been productized in Cisco as part
of its DeepVision framework.
- Abstract(参考訳): ビデオ分析は現代のシステムやサービスで広く使われている。
ビデオ分析の最前線は、ユーザーが興味のあるオブジェクトを見つけるために開発するビデオクエリーだ。
ビデオ分析の中心である映像オブジェクト(人間、動物、車など)は、従来のオブジェクト指向言語でモデル化されたオブジェクトと精神的に類似しているという知見に基づいて、ビデオ分析に対するオブジェクト指向アプローチを開発することを提案する。
vqpyと名付けられたこのアプローチは、ビデオオブジェクトとそのインタラクションをユーザが簡単に表現できる構造を備えたpythonのフロントエンド$\unicode{x2015}$と、ビデオオブジェクトに基づいたパイプラインの自動構築と最適化が可能な拡張可能なバックエンドで構成されている。
私たちは、DeepVisionフレームワークの一部としてCiscoで製品化されているVQPyを実装、オープンソース化しました。
関連論文リスト
- Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Artemis: Towards Referential Understanding in Complex Videos [61.756640718014154]
本稿では,ビデオに基づく参照理解をより微細なレベルに押し上げるMLLMであるArtemisを紹介する。
アルテミスはどんなビデオフレームにもバウンディングボックスのある自然言語の質問を受け取り、ビデオ全体の中で参照対象を説明する。
新たに確立されたVideoRef45Kデータセット上で,45KビデオQAペアを用いてArtemisをトレーニングし,計算効率のよい3段階トレーニング手順を設計する。
論文 参考訳(メタデータ) (2024-06-01T01:43:56Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Single-Stage Visual Query Localization in Egocentric Videos [79.71065005161566]
エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。
我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
論文 参考訳(メタデータ) (2023-06-15T17:57:28Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
ビデオに関する詳細な会話を理解し、生成することができる。
我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。
対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-12-01T17:06:39Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。