論文の概要: Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams
- arxiv url: http://arxiv.org/abs/2406.08085v1
- Date: Wed, 12 Jun 2024 11:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:24:58.022900
- Title: Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams
- Title(参考訳): Flash-VStream: 長いビデオストリームのためのメモリベースのリアルタイム理解
- Authors: Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin,
- Abstract要約: 人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
- 参考スコア(独自算出の注目度): 78.72965584414368
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Benefiting from the advancements in large language models and cross-modal alignment, existing multi-modal video understanding methods have achieved prominent performance in offline scenario. However, online video streams, as one of the most common media forms in the real world, have seldom received attention. Compared to offline videos, the 'dynamic' nature of online video streams poses challenges for the direct application of existing models and introduces new problems, such as the storage of extremely long-term information, interaction between continuous visual content and 'asynchronous' user questions. Therefore, in this paper we present Flash-VStream, a video-language model that simulates the memory mechanism of human. Our model is able to process extremely long video streams in real-time and respond to user queries simultaneously. Compared to existing models, Flash-VStream achieves significant reductions in inference latency and VRAM consumption, which is intimately related to performing understanding of online streaming video. In addition, given that existing video understanding benchmarks predominantly concentrate on offline scenario, we propose VStream-QA, a novel question answering benchmark specifically designed for online video streaming understanding. Comparisons with popular existing methods on the proposed benchmark demonstrate the superiority of our method for such challenging setting. To verify the generalizability of our approach, we further evaluate it on existing video understanding benchmarks and achieves state-of-the-art performance in offline scenarios as well. All code, models, and datasets are available at the https://invinciblewyq.github.io/vstream-page/
- Abstract(参考訳): 大規模言語モデルの進歩とクロスモーダルなアライメントにより、既存のマルチモーダルビデオ理解手法はオフラインシナリオにおいて顕著なパフォーマンスを実現している。
しかし、オンラインビデオストリームは、現実世界で最も一般的なメディアフォーマットの1つであり、注目されることはめったにない。
オフラインビデオと比較して、オンラインビデオストリームの「ダイナミック」な性質は、既存のモデルを直接適用する上での課題を提起し、極端に長期的な情報の保存、継続的な視覚的コンテンツ間の相互作用、そして「非同期」ユーザ質問といった新しい問題を導入している。
そこで本稿では,人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
我々のモデルは、非常に長いビデオストリームをリアルタイムで処理し、同時にユーザクエリに応答することができる。
既存のモデルと比較して、Flash-VStreamは推論遅延とVRAM消費の大幅な削減を実現している。
さらに、既存のビデオ理解ベンチマークがオフラインのシナリオに集中していることを踏まえ、オンラインビデオストリーミング理解に特化した新しい質問応答ベンチマークであるVStream-QAを提案する。
提案したベンチマークにおける既存手法との比較により,このような課題に対して,提案手法の優位性を示す。
提案手法の一般化性を検証するため,既存のビデオ理解ベンチマークでさらに評価し,オフラインシナリオでも最先端のパフォーマンスを実現する。
すべてのコード、モデル、データセットはhttps://invinciblewyq.github.io/vstream-page/で入手できる。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation [75.07460026246582]
ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:43:35Z) - Online Streaming Video Super-Resolution with Convolutional Look-Up Table [26.628925884353674]
本稿では,オンライン・ストリーミング・ビデオ・スーパーレゾリューションの稀な問題設定に焦点を当てる。
LDV-WebRTCと呼ばれる新しいベンチマークデータセットは、現実世界のオンラインストリーミングシステムに基づいて構築されている。
そこで我々は, 異なる劣化に特化したLUTのセットを構築し, 適応的に組み合わせて, 異なる劣化に対処する, 実験用LUTモジュールを提案する。
論文 参考訳(メタデータ) (2023-03-01T08:54:56Z) - Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - InstanceFormer: An Online Video Instance Segmentation Framework [21.760243214387987]
本稿では,一段変換器を用いた効率的なオンラインVISフレームワーク InstanceFormer を提案する。
本稿では,短期的・長期的依存と時間的コヒーレンスをモデル化するための3つの新しいコンポーネントを提案する。
提案されたInstanceFormerは、従来のオンラインベンチマークメソッドよりも、複数のデータセットで大きなマージンを達成している。
論文 参考訳(メタデータ) (2022-08-22T18:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。