論文の概要: TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos
- arxiv url: http://arxiv.org/abs/2504.17343v1
- Date: Thu, 24 Apr 2025 07:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.288305
- Title: TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos
- Title(参考訳): TimeChat-Online:80%のビジュアルトークンはビデオストリーミングで自然に冗長
- Authors: Linli Yao, Yicheng Li, Yuancheng Wei, Lei Li, Shuhuai Ren, Yuanxin Liu, Kun Ouyang, Lean Wang, Shicheng Li, Sida Li, Lingpeng Kong, Qi Liu, Yuanxing Zhang, Xu Sun,
- Abstract要約: TimeChat-Onlineは、リアルタイムビデオインタラクションに革命をもたらすオンラインビデオLLMである。
我々の微分トークンドロップ(DTD)モジュールは、ストリーミングビデオにおける視覚的冗長性の課題に対処します。
実験により、DTDはビデオトークンの82.8%の削減を実現し、StreamingBenchでは98%のパフォーマンスを維持した。
- 参考スコア(独自算出の注目度): 47.91239059703758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of online video platforms, particularly live streaming services, has created an urgent need for real-time video understanding systems. These systems must process continuous video streams and respond to user queries instantaneously, presenting unique challenges for current Video Large Language Models (VideoLLMs). While existing VideoLLMs excel at processing complete videos, they face significant limitations in streaming scenarios due to their inability to handle dense, redundant frames efficiently. We introduce TimeChat-Online, a novel online VideoLLM that revolutionizes real-time video interaction. At its core lies our innovative Differential Token Drop (DTD) module, which addresses the fundamental challenge of visual redundancy in streaming videos. Drawing inspiration from human visual perception's Change Blindness phenomenon, DTD preserves meaningful temporal changes while filtering out static, redundant content between frames. Remarkably, our experiments demonstrate that DTD achieves an 82.8% reduction in video tokens while maintaining 98% performance on StreamingBench, revealing that over 80% of visual content in streaming videos is naturally redundant without requiring language guidance. To enable seamless real-time interaction, we present TimeChat-Online-139K, a comprehensive streaming video dataset featuring diverse interaction patterns including backward-tracing, current-perception, and future-responding scenarios. TimeChat-Online's unique Proactive Response capability, naturally achieved through continuous monitoring of video scene transitions via DTD, sets it apart from conventional approaches. Our extensive evaluation demonstrates TimeChat-Online's superior performance on streaming benchmarks (StreamingBench and OvOBench) and maintaining competitive results on long-form video tasks such as Video-MME and MLVU.
- Abstract(参考訳): オンラインビデオプラットフォーム、特にライブストリーミングサービスの急速な成長は、リアルタイムビデオ理解システムに対する緊急の需要を生み出している。
これらのシステムは、連続したビデオストリームを処理し、ユーザクエリに即座に応答し、現在のビデオ大言語モデル(VideoLLM)に固有の課題を提示しなければならない。
既存のVideoLLMは、完全なビデオを処理するのに優れていますが、高密度で冗長なフレームを効率的に処理できないため、ストリーミングシナリオの大幅な制限に直面しています。
リアルタイムビデオインタラクションに革命をもたらす新しいオンラインビデオLLMであるTimeChat-Onlineを紹介する。
このモジュールは、ストリーミングビデオにおける視覚的冗長性の根本的な課題に対処します。
人間の視覚知覚による変化の盲点現象からインスピレーションを得たDTDは、フレーム間の静的で冗長なコンテンツをフィルタリングしながら、意味のある時間的変化を保存する。
興味深いことに、私たちの実験では、DTDはストリームBenchの98%のパフォーマンスを維持しながら、ビデオトークンの82.8%の削減を実現している。
シームレスなリアルタイムインタラクションを実現するために,バックワードトレーシングやカレントパーセプション,将来対応シナリオなど,さまざまなインタラクションパターンを特徴とする総合的なストリーミングビデオデータセットであるTimeChat-Online-139Kを提案する。
TimeChat-OnlineのユニークなProactive Response機能は、DTDを通じてビデオシーンの遷移を継続的に監視することで自然に達成され、従来のアプローチとは切り離されている。
我々は,ストリームベンチマーク(StreamingBench と OvOBench)における TimeChat-Online の優れた性能を示し,ビデオ-MME や MLVU のような長大なビデオタスクにおける競合結果を維持する。
関連論文リスト
- Learning Streaming Video Representation via Multitask Training [38.83730146750222]
オフラインの動画理解とは異なり、ストリーミングビデオ理解にはフレーム単位でビデオストリームを処理し、過去の情報を保存し、低レイテンシの決定を行う能力が必要である。
本稿では,事前学習した視覚変換器に因果的注意を組み込むことにより,StreamFormerと呼ばれる新しいストリーミングビデオバックボーンを開発する。
オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:59:54Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation [19.616624959353697]
$infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。
我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
論文 参考訳(メタデータ) (2025-01-31T12:45:46Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - Towards Long Video Understanding via Fine-detailed Video Story Generation [58.31050916006673]
長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。
既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。
長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
論文 参考訳(メタデータ) (2024-12-09T03:41:28Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。