論文の概要: Online Video Understanding: A Comprehensive Benchmark and Memory-Augmented Method
- arxiv url: http://arxiv.org/abs/2501.00584v1
- Date: Tue, 31 Dec 2024 18:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:50.515920
- Title: Online Video Understanding: A Comprehensive Benchmark and Memory-Augmented Method
- Title(参考訳): オンラインビデオ理解: 総合的なベンチマークとメモリ拡張手法
- Authors: Zhenpeng Huang, Xinhao Li, Jiaqi Li, Jing Wang, Xiangyu Zeng, Cheng Liang, Tao Wu, Xi Chen, Liang Li, Limin Wang,
- Abstract要約: マルチモーダル大言語モデルはオフラインビデオ理解において大きな進歩を見せている。
これらのモデルを自律運転や人間とコンピュータのインタラクションといった現実のシナリオに適用することは、ユニークな課題を提示します。
本稿では,評価ベンチマーク,モデルアーキテクチャ,トレーニング戦略の3つの観点から,体系的な取り組みについて述べる。
- 参考スコア(独自算出の注目度): 22.814813541695997
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have shown significant progress in offline video understanding. However, applying these models to real-world scenarios, such as autonomous driving and human-computer interaction, presents unique challenges due to the need for real-time processing of continuous online video streams. To this end, this paper presents systematic efforts from three perspectives: evaluation benchmark, model architecture, and training strategy. First, we introduce OVBench, a comprehensive question-answering benchmark specifically designed to evaluate models' ability to perceive, memorize, and reason within online video contexts. It features six core task types across three temporal contexts-past, present, and future-forming 16 subtasks from diverse datasets. Second, we propose a new Pyramid Memory Bank (PMB) that effectively retains key spatiotemporal information in video streams. Third, we proposed an offline-to-online learning paradigm, designing an interleaved dialogue format for online video data and constructing an instruction-tuning dataset tailored for online video training. This framework led to the development of VideoChat-Online, a robust and efficient model for online video understanding. Despite the lower computational cost and higher efficiency, VideoChat-Online outperforms existing state-of-the-art offline and online models across popular offline video benchmarks and OVBench, demonstrating the effectiveness of our model architecture and training strategy.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)はオフラインビデオ理解において大きな進歩を見せている。
しかしながら、これらのモデルを自律運転や人間とコンピュータのインタラクションといった現実のシナリオに適用することは、連続したオンラインビデオストリームのリアルタイム処理の必要性から、ユニークな課題を提起する。
そこで本研究では,評価ベンチマーク,モデルアーキテクチャ,トレーニング戦略の3つの観点から,体系的な取り組みについて述べる。
まず、OVBenchを紹介する。OVBenchは、オンラインビデオコンテキスト内でモデルが知覚し、記憶し、理屈を判断する能力を評価するために特別に設計された総合的な質問応答ベンチマークである。
さまざまなデータセットから3つの時間的コンテキスト、現在、将来的な16のサブタスクをまたいだ6つのコアタスクタイプを備えている。
第2に,ビデオストリームにおける重要な時空間情報を効果的に保持する新しいピラミッドメモリバンク(PMB)を提案する。
第3に、オンラインビデオデータのためのインターリーブされた対話形式を設計し、オンラインビデオトレーニングに適したインストラクションチューニングデータセットを構築する、オフライン-オンライン学習パラダイムを提案する。
このフレームワークは、オンラインビデオ理解のための堅牢で効率的なモデルであるVideoChat-Onlineの開発につながった。
計算コストの低減と効率の向上にもかかわらず、VideoChat-Onlineは、一般的なオフラインビデオベンチマークやOVBenchで既存の最先端のオフラインおよびオンラインモデルよりも優れており、モデルアーキテクチャとトレーニング戦略の有効性を実証しています。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling [14.450847211200292]
マルチモダリティアプリケーションの台頭に伴い、ビデオ理解はますます重要になっている。
適応状態モデリングによりこれらの問題を克服する新しいシステムC-VUEを導入する。
C-VUEには3つの重要な設計がある。第1に、歴史的ビデオ情報を保持するためにビデオ認識アプローチを使用する長距離履歴モデリング技術である。
2つ目は空間冗長性低減手法で、時間的関係に基づく歴史モデリングの効率を高める。
論文 参考訳(メタデータ) (2024-10-19T05:50:00Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation [75.07460026246582]
ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:43:35Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。