論文の概要: LOVO: Efficient Complex Object Query in Large-Scale Video Datasets
- arxiv url: http://arxiv.org/abs/2507.14301v1
- Date: Fri, 18 Jul 2025 18:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.824688
- Title: LOVO: Efficient Complex Object Query in Large-Scale Video Datasets
- Title(参考訳): LOVO:大規模ビデオデータセットにおける効率的な複雑なオブジェクトクエリ
- Authors: Yuxin Liu, Yuezhang Peng, Hefeng Zhou, Hongze Liu, Xinyu Lu, Jiong Lou, Chentao Wu, Wei Zhao, Jie Li,
- Abstract要約: LOVOは、comp$underlineL$ex $underlineO$bjectクエリを大規模$underlineV$ide$underlineO$データセットで効率的に扱うように設計された新しいシステムである。
ユーザクエリに依存しないLOVOは、事前トレーニングされたビジュアルエンコーダを使用して、ワンタイムの機能抽出を実行し、キーフレームに対するコンパクトなビジュアル埋め込みを生成する。
クエリフェーズの間、LOVOはオブジェクトクエリをクエリの埋め込みに変換し、視覚的な埋め込みの近傍の高速な探索を行う。
- 参考スコア(独自算出の注目度): 11.821229903544404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread deployment of cameras has led to an exponential increase in video data, creating vast opportunities for applications such as traffic management and crime surveillance. However, querying specific objects from large-scale video datasets presents challenges, including (1) processing massive and continuously growing data volumes, (2) supporting complex query requirements, and (3) ensuring low-latency execution. Existing video analysis methods struggle with either limited adaptability to unseen object classes or suffer from high query latency. In this paper, we present LOVO, a novel system designed to efficiently handle comp$\underline{L}$ex $\underline{O}$bject queries in large-scale $\underline{V}$ide$\underline{O}$ datasets. Agnostic to user queries, LOVO performs one-time feature extraction using pre-trained visual encoders, generating compact visual embeddings for key frames to build an efficient index. These visual embeddings, along with associated bounding boxes, are organized in an inverted multi-index structure within a vector database, which supports queries for any objects. During the query phase, LOVO transforms object queries to query embeddings and conducts fast approximate nearest-neighbor searches on the visual embeddings. Finally, a cross-modal rerank is performed to refine the results by fusing visual features with detailed textual features. Evaluation on real-world video datasets demonstrates that LOVO outperforms existing methods in handling complex queries, with near-optimal query accuracy and up to 85x lower search latency, while significantly reducing index construction costs. This system redefines the state-of-the-art object query approaches in video analysis, setting a new benchmark for complex object queries with a novel, scalable, and efficient approach that excels in dynamic environments.
- Abstract(参考訳): カメラの普及により、ビデオデータが飛躍的に増加し、交通管理や犯罪監視といったアプリケーションにも大きなチャンスが生まれている。
しかし,大規模ビデオデータセットから特定のオブジェクトをクエリすることは,(1)大規模かつ継続的なデータボリュームの処理,(2)複雑なクエリ要求のサポート,(3)低レイテンシ実行の確保といった課題を呈している。
既存のビデオ分析手法では、未確認のオブジェクトクラスへの適応性に制限があるか、高いクエリ待ち時間に悩まされている。
本稿では,大規模な$\underline{V}$ide$\underline{O}$データセットにおいて,comp$\underline{L}$ex $\underline{O}$bjectクエリを効率的に扱うように設計された新しいシステムであるLOVOを提案する。
ユーザクエリに依存しないLOVOは、事前トレーニングされたビジュアルエンコーダを使用して、ワンタイムの機能抽出を実行し、キーフレーム用のコンパクトなビジュアル埋め込みを生成して、効率的なインデックスを構築する。
これらのビジュアル埋め込みは、関連するバウンディングボックスとともに、ベクトルデータベース内の逆多重インデックス構造で構成され、任意のオブジェクトに対するクエリをサポートする。
クエリフェーズの間、LOVOはオブジェクトクエリをクエリの埋め込みに変換し、視覚的な埋め込みの近傍の高速な探索を行う。
最後に、視覚的特徴と詳細なテキスト的特徴とを融合させて結果を洗練するために、クロスモーダル・リランクを行う。
実世界のビデオデータセットの評価では、LOVOは複雑なクエリを扱う既存の手法より優れており、クエリの精度がほぼ最適であり、検索レイテンシは最大85倍も低く、インデックス構築コストは大幅に削減されている。
このシステムは、ビデオ分析における最先端のオブジェクトクエリアプローチを再定義し、動的環境に優れた新しいスケーラブルで効率的なアプローチで、複雑なオブジェクトクエリのための新しいベンチマークを設定する。
関連論文リスト
- TRACER: Efficient Object Re-Identification in Networked Cameras through Adaptive Query Processing [8.955401552705892]
Spatulaは、Re-IDクエリを処理するための最先端のビデオデータベース管理システム(VDBMS)である。
カメラ履歴のために高いリコールを必要とする重要なビデオ分析アプリケーションには適していない。
本稿では、適応的なクエリ処理フレームワークを用いて、Re-IDクエリを効率的に処理する新しいVDBMSであるTracerを提案する。
論文 参考訳(メタデータ) (2025-07-13T02:22:08Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - LazyVLM: Neuro-Symbolic Approach to Video Analytics [11.31655472476408]
本稿では,視覚言語モデルに似たユーザフレンドリなクエリインタフェースを提供する,ニューロシンボリックビデオ分析システムであるLazyVLMを紹介する。
LazyVLMを使えば、ビデオデータを無駄にドロップして、複雑なマルチフレームビデオクエリを指定できる。
我々は、LazyVLMが、オープンドメインのビデオデータを大規模にクエリする、堅牢で、効率的で、ユーザフレンドリなソリューションを提供することを示した。
論文 参考訳(メタデータ) (2025-05-27T17:31:17Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z) - Evaluating Temporal Queries Over Video Feeds [25.04363138106074]
ビデオフィードにおけるオブジェクトとその共起に関する時間的クエリは、法執行機関からセキュリティ、安全に至るまで、多くのアプリケーションにとって関心がある。
本稿では,オブジェクト検出/追跡,中間データ生成,クエリ評価という3つのレイヤからなるアーキテクチャを提案する。
中間データ生成層における全ての検出対象を整理するために,MFSとSSGという2つの手法を提案する。
また、SSGに対して入力フレームを処理し、クエリ評価とは無関係なオブジェクトやフレームを効率よくプーンするState Traversal (ST)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-03-02T14:55:57Z) - Video Monitoring Queries [16.7214343633499]
ビデオストリーム上での対話型宣言型クエリ処理の問題について検討する。
特定のタイプのオブジェクトを含むクエリを高速化するために、近似フィルタのセットを導入します。
フィルタは、クエリ述語が真実であれば素早く評価でき、フレームのさらなる分析を進めることができる。
論文 参考訳(メタデータ) (2020-02-24T20:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。