論文の概要: LAVA: Language Driven Scalable and Versatile Traffic Video Analytics
- arxiv url: http://arxiv.org/abs/2507.19821v2
- Date: Sat, 02 Aug 2025 13:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 11:59:45.061489
- Title: LAVA: Language Driven Scalable and Versatile Traffic Video Analytics
- Title(参考訳): LAVA: 言語駆動のスケーラブルでVersatileなトラヒックビデオ分析
- Authors: Yanrui Yu, Tianfei Zhou, Jiaxin Sun, Lianpeng Qiao, Lizhong Ding, Ye Yuan, Guoren Wang,
- Abstract要約: 自然言語クエリを受信し,トラフィックターゲットを検索するシステムであるtextscLava を構築した。
textscLavaは,1)ビデオセグメントレベルのローカライゼーションのためのマルチアームバンディットに基づく効率的なサンプリング手法,2)オブジェクトレベルの検索のためのビデオ固有のオープンワールド検出モジュール,3)時間的オブジェクト関連のための長期オブジェクト軌跡抽出方式の3つの主要コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 43.754808270319664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern urban environments, camera networks generate massive amounts of operational footage -- reaching petabytes each day -- making scalable video analytics essential for efficient processing. Many existing approaches adopt an SQL-based paradigm for querying such large-scale video databases; however, this constrains queries to rigid patterns with predefined semantic categories, significantly limiting analytical flexibility. In this work, we explore a language-driven video analytics paradigm aimed at enabling flexible and efficient querying of high-volume video data driven by natural language. Particularly, we build \textsc{Lava}, a system that accepts natural language queries and retrieves traffic targets across multiple levels of granularity and arbitrary categories. \textsc{Lava} comprises three main components: 1) a multi-armed bandit-based efficient sampling method for video segment-level localization; 2) a video-specific open-world detection module for object-level retrieval; and 3) a long-term object trajectory extraction scheme for temporal object association, yielding complete trajectories for object-of-interests. To support comprehensive evaluation, we further develop a novel benchmark by providing diverse, semantically rich natural language predicates and fine-grained annotations for multiple videos. Experiments on this benchmark demonstrate that \textsc{Lava} improves $F_1$-scores for selection queries by $\mathbf{14\%}$, reduces MPAE for aggregation queries by $\mathbf{0.39}$, and achieves top-$k$ precision of $\mathbf{86\%}$, while processing videos $ \mathbf{9.6\times} $ faster than the most accurate baseline. Our code and dataset are available at https://github.com/yuyanrui/LAVA.
- Abstract(参考訳): 現代の都市環境では、カメラネットワークは大量の運用映像を生成し、毎日1ペタバイトに達する。
既存の多くのアプローチでは、このような大規模なビデオデータベースを問合せするためのSQLベースのパラダイムが採用されているが、クエリは事前に定義されたセマンティックなカテゴリを持つ厳密なパターンに制約され、分析の柔軟性が著しく制限される。
本研究では,自然言語によって駆動される高ボリュームビデオデータのフレキシブルで効率的なクエリを実現することを目的とした,言語駆動のビデオ分析パラダイムについて検討する。
特に,自然言語クエリを受理し,複数レベルの粒度と任意のカテゴリにわたるトラフィックターゲットを検索するシステムである \textsc{Lava} を構築した。
\textsc{Lava} は3つの主要コンポーネントから構成される。
1)ビデオセグメントレベルのローカライゼーションのためのマルチアームバンディットに基づく効率的なサンプリング方法,2)オブジェクトレベルの検索のためのビデオ固有のオープンワールド検出モジュール,
3) 時間的対象関連のための長期的対象軌跡抽出手法により, 対象物に対する完全な軌跡が得られる。
包括的評価を支援するために,多種多様で意味的にリッチな自然言語述語と,複数のビデオに対する微粒なアノテーションを提供することにより,新たなベンチマークを開発する。
このベンチマークの実験によると、 \textsc{Lava}は、選択クエリのF_1$スコアを$\mathbf{14\%}$で改善し、集約クエリのMPAEを$\mathbf{0.39}$で削減し、トップ$k$の精度を$\mathbf{86\%}$で達成し、ビデオの処理に$ \mathbf{9.6\times}$を最も正確なベースラインよりも高速にする。
私たちのコードとデータセットはhttps://github.com/yuyanrui/LAVA.comで公開されています。
関連論文リスト
- LOVO: Efficient Complex Object Query in Large-Scale Video Datasets [11.821229903544404]
LOVOは、comp$underlineL$ex $underlineO$bjectクエリを大規模$underlineV$ide$underlineO$データセットで効率的に扱うように設計された新しいシステムである。
ユーザクエリに依存しないLOVOは、事前トレーニングされたビジュアルエンコーダを使用して、ワンタイムの機能抽出を実行し、キーフレームに対するコンパクトなビジュアル埋め込みを生成する。
クエリフェーズの間、LOVOはオブジェクトクエリをクエリの埋め込みに変換し、視覚的な埋め込みの近傍の高速な探索を行う。
論文 参考訳(メタデータ) (2025-07-18T18:21:43Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。
MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。
データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。
提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文 参考訳(メタデータ) (2022-11-03T11:53:39Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。