論文の概要: Empowering Agentic Video Analytics Systems with Video Language Models
- arxiv url: http://arxiv.org/abs/2505.00254v1
- Date: Thu, 01 May 2025 02:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.202092
- Title: Empowering Agentic Video Analytics Systems with Video Language Models
- Title(参考訳): 映像言語モデルを用いたエージェントビデオ分析システム
- Authors: Yuxuan Yan, Shiqi Jiang, Ting Cao, Yifan Yang, Qianqian Yang, Yuanchao Shu, Yuqing Yang, Lili Qiu,
- Abstract要約: Video-Language Models (VLM)は、オープンなビデオ理解、推論、分析を可能にする可能性を提供する。
VLMの制限されたコンテキストウィンドウは、超長いビデオコンテンツを処理する際の課題を示す。
本稿では,VLMを利用した映像分析システムであるAVAを紹介する。
- 参考スコア(独自算出の注目度): 16.962065998310223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-driven video analytics has become increasingly pivotal across diverse domains. However, existing systems are often constrained to specific, predefined tasks, limiting their adaptability in open-ended analytical scenarios. The recent emergence of Video-Language Models (VLMs) as transformative technologies offers significant potential for enabling open-ended video understanding, reasoning, and analytics. Nevertheless, their limited context windows present challenges when processing ultra-long video content, which is prevalent in real-world applications. To address this, we introduce AVA, a VLM-powered system designed for open-ended, advanced video analytics. AVA incorporates two key innovations: (1) the near real-time construction of Event Knowledge Graphs (EKGs) for efficient indexing of long or continuous video streams, and (2) an agentic retrieval-generation mechanism that leverages EKGs to handle complex and diverse queries. Comprehensive evaluations on public benchmarks, LVBench and VideoMME-Long, demonstrate that AVA achieves state-of-the-art performance, attaining 62.3% and 64.1% accuracy, respectively, significantly surpassing existing VLM and video Retrieval-Augmented Generation (RAG) systems. Furthermore, to evaluate video analytics in ultra-long and open-world video scenarios, we introduce a new benchmark, AVA-100. This benchmark comprises 8 videos, each exceeding 10 hours in duration, along with 120 manually annotated, diverse, and complex question-answer pairs. On AVA-100, AVA achieves top-tier performance with an accuracy of 75.8%.
- Abstract(参考訳): AIによるビデオ分析は、さまざまな領域でますます重要になっている。
しかしながら、既存のシステムは、しばしば特定の事前定義されたタスクに制約され、オープンな分析シナリオにおける適応性を制限する。
変換技術としてのビデオ言語モデル(VLM)の近年の出現は、オープンなビデオ理解、推論、分析を可能にする大きな可能性を秘めている。
それにもかかわらず、それらの制限されたコンテキストウィンドウは、現実世界のアプリケーションで広く使われている超長いビデオコンテンツを処理する際の課題を示す。
これを解決するために、我々は、オープンエンドの高度なビデオ分析用に設計されたVLM駆動システムであるAVAを紹介する。
AVAは,1)長時間あるいは連続的なビデオストリームの効率的なインデックス作成のためのイベント知識グラフ(EKG)のリアルタイム構築,2)複雑で多様なクエリを扱うためにEKGを利用するエージェント検索生成機構である。
LVBench と VideoMME-Long は、AVA が最先端のパフォーマンスを達成し、それぞれ62.3% と 64.1% の精度を達成し、既存の VLM と Video Retrieval-Augmented Generation (RAG) システムを大幅に上回っていることを示した。
さらに,超長大かつオープンな映像シナリオにおける映像分析を評価するために,新しいベンチマークAVA-100を導入する。
このベンチマークは8つのビデオで構成され、それぞれが10時間以上、120の注釈付き、多種多様で複雑な質問応答ペアで構成されている。
AVA-100では75.8%の精度でトップレベルのパフォーマンスを達成した。
関連論文リスト
- VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.662739174367836]
ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。
本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。
我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-30T14:12:21Z) - AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering [6.088350050879401]
我々は,オープンエンドビデオ質問応答において,大規模視覚言語モデルを包括的に評価するための,新しい,挑戦的なベンチマークであるAutoEval-Videoを提案する。
1)AutoEval-Videoは9つのスキルディメンションにまたがるオープンエンドなビデオクエストを構築し,認識能力,理解力,生成能力に対処する。
インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9%から97.5%の精度に匹敵する、97.0%程度の安定した評価精度を達成できる。
論文 参考訳(メタデータ) (2023-11-25T02:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。