Fugu-MT 論文翻訳(概要): VQPy: An Object-Oriented Approach to Modern Video Analytics

論文の概要: VQPy: An Object-Oriented Approach to Modern Video Analytics

arxiv url: http://arxiv.org/abs/2311.01623v1
Date: Fri, 3 Nov 2023 16:58:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 15:51:40.788699
Title: VQPy: An Object-Oriented Approach to Modern Video Analytics
Title（参考訳）: vqpy: 現代のビデオ分析へのオブジェクト指向アプローチ
Authors: Shan Yu, Zhenting Zhu, Yu Chen, Hanchen Xu, Pengzhan Zhao, Yang Wang, Arthi Padmanabhan, Hugo Latapie, Harry Xu
Abstract要約: ビデオ分析は、現代のビデオシステムやサービスで広く使われている。ビデオ分析のためのオブジェクト指向Pythonアプローチを開発した。ビデオオブジェクトは従来のオブジェクト指向言語によってモデル化されている。
参考スコア（独自算出の注目度）: 12.2742152483923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video analytics is widely used in contemporary systems and services. At the forefront of video analytics are video queries that users develop to find objects of particular interest. Building upon the insight that video objects (e.g., human, animals, cars, etc.), the center of video analytics, are similar in spirit to objects modeled by traditional object-oriented languages, we propose to develop an object-oriented approach to video analytics. This approach, named VQPy, consists of a frontend$\unicode{x2015}$a Python variant with constructs that make it easy for users to express video objects and their interactions$\unicode{x2015}$as well as an extensible backend that can automatically construct and optimize pipelines based on video objects. We have implemented and open-sourced VQPy, which has been productized in Cisco as part of its DeepVision framework.
Abstract（参考訳）: ビデオ分析は現代のシステムやサービスで広く使われている。ビデオ分析の最前線は、ユーザーが興味のあるオブジェクトを見つけるために開発するビデオクエリーだ。ビデオ分析の中心である映像オブジェクト(人間、動物、車など)は、従来のオブジェクト指向言語でモデル化されたオブジェクトと精神的に類似しているという知見に基づいて、ビデオ分析に対するオブジェクト指向アプローチを開発することを提案する。 vqpyと名付けられたこのアプローチは、ビデオオブジェクトとそのインタラクションをユーザが簡単に表現できる構造を備えたpythonのフロントエンド$\unicode{x2015}$と、ビデオオブジェクトに基づいたパイプラインの自動構築と最適化が可能な拡張可能なバックエンドで構成されている。私たちは、DeepVisionフレームワークの一部としてCiscoで製品化されているVQPyを実装、オープンソース化しました。

関連論文リスト

LAVA: Language Driven Scalable and Versatile Traffic Video Analytics [43.754808270319664]
自然言語クエリを受信し,トラフィックターゲットを検索するシステムであるtextscLava を構築した。 textscLavaは,1)ビデオセグメントレベルのローカライゼーションのためのマルチアームバンディットに基づく効率的なサンプリング手法,2)オブジェクトレベルの検索のためのビデオ固有のオープンワールド検出モジュール,3)時間的オブジェクト関連のための長期オブジェクト軌跡抽出方式の3つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2025-07-26T06:38:07Z)
Object-centric Video Question Answering with Visual Grounding and Referring [43.963739052764595]
我々は、ビデオ推論タスクにおいて、入力参照と出力のグラウンド化の両方を実行することができるビデオLLMモデルを提案する。また、ビデオ内の残りのフレームに対して、任意の時間スタンプで任意の視覚的プロンプト入力を伝搬する新しいアプローチであるSTOMを提案する。我々は、ビデオ質問応答やオブジェクトセグメンテーションを参照しながら、VideoInferや他の既存のベンチマークに関する包括的な実験を行う。
論文参考訳（メタデータ） (2025-07-25T18:11:23Z)
Open-World Object Counting in Videos [55.2480439325792]
本稿では,ビデオにおけるオープンワールドオブジェクトカウントの新たな課題を紹介する。目的は、ビデオ内のターゲットオブジェクトのすべてのユニークなインスタンスを列挙することである。このタスクのために、モデルであるCountVidを紹介します。
論文参考訳（メタデータ） (2025-06-18T11:35:30Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Artemis: Towards Referential Understanding in Complex Videos [61.756640718014154]
本稿では,ビデオに基づく参照理解をより微細なレベルに押し上げるMLLMであるArtemisを紹介する。アルテミスはどんなビデオフレームにもバウンディングボックスのある自然言語の質問を受け取り、ビデオ全体の中で参照対象を説明する。新たに確立されたVideoRef45Kデータセット上で,45KビデオQAペアを用いてArtemisをトレーニングし,計算効率のよい3段階トレーニング手順を設計する。
論文参考訳（メタデータ） (2024-06-01T01:43:56Z)
Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文参考訳（メタデータ） (2023-11-27T18:59:58Z)
Video Referring Expression Comprehension via Transformer with Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文参考訳（メタデータ） (2023-10-25T06:38:42Z)
Single-Stage Visual Query Localization in Egocentric Videos [79.71065005161566]
エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
論文参考訳（メタデータ） (2023-06-15T17:57:28Z)
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。ビデオに関する詳細な会話を理解し、生成することができる。我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文参考訳（メタデータ） (2023-06-08T17:59:56Z)
Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文参考訳（メタデータ） (2021-12-01T17:06:39Z)
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文参考訳（メタデータ） (2021-07-20T16:42:58Z)
Hierarchical Object-oriented Spatio-Temporal Reasoning for Video Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文参考訳（メタデータ） (2021-06-25T05:12:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。