論文の概要: Venus: An Efficient Edge Memory-and-Retrieval System for VLM-based Online Video Understanding
- arxiv url: http://arxiv.org/abs/2512.07344v1
- Date: Mon, 08 Dec 2025 09:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.810935
- Title: Venus: An Efficient Edge Memory-and-Retrieval System for VLM-based Online Video Understanding
- Title(参考訳): Venus: VLMベースのオンラインビデオ理解のための効率的なエッジメモリ・検索システム
- Authors: Shengyuan Ye, Bei Ouyang, Tianyi Qian, Liekang Zeng, Mu Yuan, Xiaowen Chu, Weijie Hong, Xu Chen,
- Abstract要約: 我々は,効率的なオンラインビデオ理解のためのデバイス上でのメモリ・アンド・検索システムであるVenusを提案する。
Venusは、クラウドからエッジへのメモリ構築と検索をシンクする、エッジクラウドの分離アーキテクチャである。
Venusは、最先端の手法と比較して、全応答遅延の15x-131倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 23.04655766432015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have demonstrated impressive multimodal comprehension capabilities and are being deployed in an increasing number of online video understanding applications. While recent efforts extensively explore advancing VLMs' reasoning power in these cases, deployment constraints are overlooked, leading to overwhelming system overhead in real-world deployments. To address that, we propose Venus, an on-device memory-and-retrieval system for efficient online video understanding. Venus proposes an edge-cloud disaggregated architecture that sinks memory construction and keyframe retrieval from cloud to edge, operating in two stages. In the ingestion stage, Venus continuously processes streaming edge videos via scene segmentation and clustering, where the selected keyframes are embedded with a multimodal embedding model to build a hierarchical memory for efficient storage and retrieval. In the querying stage, Venus indexes incoming queries from memory, and employs a threshold-based progressive sampling algorithm for keyframe selection that enhances diversity and adaptively balances system cost and reasoning accuracy. Our extensive evaluation shows that Venus achieves a 15x-131x speedup in total response latency compared to state-of-the-art methods, enabling real-time responses within seconds while maintaining comparable or even superior reasoning accuracy.
- Abstract(参考訳): 視覚言語モデル(VLM)は、印象的なマルチモーダル理解能力を示しており、オンラインビデオ理解アプリケーションにデプロイされている。
これらのケースでは、VLMの推論能力の進歩を幅広く検討しているが、デプロイの制約は見過ごされ、現実のデプロイメントではシステムオーバーヘッドが圧倒的になる。
そこで我々は,効率的なオンラインビデオ理解のためのデバイス上でのメモリ・アンド・検索システムであるVenusを提案する。
Venus氏は、メモリ構築とキーフレームの検索をクラウドからエッジにシンクし、2つのステージで運用するエッジクラウド分離アーキテクチャを提案する。
取り込み段階では、Venusはシーンセグメンテーションとクラスタリングを通じてストリーミングエッジビデオを継続的に処理し、選択されたキーフレームをマルチモーダル埋め込みモデルに埋め込んで、効率的なストレージと検索のための階層メモリを構築する。
クエリの段階では、Venusはメモリから入ってくるクエリをインデックスし、キーフレーム選択にしきい値ベースのプログレッシブサンプリングアルゴリズムを使用して、多様性を高め、システムコストと推論精度を適応的にバランスさせる。
以上の結果から,Venus は最新手法に比べて15x-131x の高速化を実現し,高い推理精度を維持しつつ,数秒以内のリアルタイム応答を実現することができた。
関連論文リスト
- State Space Prompting via Gathering and Spreading Spatio-Temporal Information for Video Understanding [50.866929044215965]
本稿では,映像理解のためのステートスペース・プロンプティング(SSP)手法を提案する。
SSPはフレーム内のプロンプトを組み合わせて、ビデオ内の重要な時間情報を集約し、伝達する。
我々のSSPは、既存のSOTA法を平均2.76%上回っている。
論文 参考訳(メタデータ) (2025-10-14T05:30:36Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation [20.67434288227437]
ViLAMPは階層型ビデオ言語モデルで、1時間の動画を「混合精度」で処理する
ViLAMPは、非キーフレームを最も健全な特徴に減らしながら、完全な情報を保持し、混合精度のトレーニングに似ている。
特にViLAMPは、単一のNVIDIA A100 GPU上で超長いビデオ(最大10Kフレーム)を処理できる。
論文 参考訳(メタデータ) (2025-04-03T09:55:09Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。