論文の概要: StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition
- arxiv url: http://arxiv.org/abs/2503.06220v1
- Date: Sat, 08 Mar 2025 13:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:07.128034
- Title: StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition
- Title(参考訳): StreamMind: イベントゲーテッド認知によるフルフレームレートビデオ対話のロック解除
- Authors: Xin Ding, Hao Wu, Yifan Yang, Shiqi Jiang, Donglin Bai, Zhibo Chen, Ting Cao,
- Abstract要約: 超FPSストリーミングビデオ処理を実現するビデオLLMフレームワークsys(A100では100fps)を紹介する。
我々は「イベント付きLLM呼び出し」という新たな認知認知時間間パラダイムを提案する。
Ego4D と SoccerNet ストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方における最先端のパフォーマンスを実証している。
- 参考スコア(独自算出の注目度): 19.54521322177521
- License:
- Abstract: With the rise of real-world human-AI interaction applications, such as AI assistants, the need for Streaming Video Dialogue is critical. To address this need, we introduce \sys, a video LLM framework that achieves ultra-FPS streaming video processing (100 fps on a single A100) and enables proactive, always-on responses in real time, without explicit user intervention. To solve the key challenge of the contradiction between linear video streaming speed and quadratic transformer computation cost, we propose a novel perception-cognition interleaving paradigm named ''event-gated LLM invocation'', in contrast to the existing per-time-step LLM invocation. By introducing a Cognition Gate network between the video encoder and the LLM, LLM is only invoked when relevant events occur. To realize the event feature extraction with constant cost, we propose Event-Preserving Feature Extractor (EPFE) based on state-space method, generating a single perception token for spatiotemporal features. These techniques enable the video LLM with full-FPS perception and real-time cognition response. Experiments on Ego4D and SoccerNet streaming tasks, as well as standard offline benchmarks, demonstrate state-of-the-art performance in both model capability and real-time efficiency, paving the way for ultra-high-FPS applications, such as Game AI Copilot and interactive media.
- Abstract(参考訳): AIアシスタントのような現実世界の人間とAIのインタラクションアプリケーションの台頭により、ストリーミングビデオ対話の必要性が重要となる。
このニーズに対処するために,超FPSストリーミングビデオ処理(A100では100fps)を実現するビデオLLMフレームワークであるShasysを導入する。
線形ビデオストリーミング速度と2次変換器計算コストの矛盾を解消するために,既存の1ステップごとのLCM呼び出しとは対照的に,'event-gated LLM invocation'と呼ばれる新しい認識-認識相互参照パラダイムを提案する。
ビデオエンコーダとLDMの間に認知ゲートネットワークを導入することにより、LCMは関連するイベントが発生した場合にのみ起動される。
イベント特徴抽出を一定コストで実現するために,状態空間法に基づくイベント保存特徴抽出器(EPFE)を提案し,時空間特徴量に対する単一認識トークンを生成する。
これらの技術は、フルFPS認識とリアルタイム認知応答を備えたビデオLLMを可能にする。
Ego4Dとサッカーネットストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方において最先端のパフォーマンスを示し、Game AI Copilotやインタラクティブメディアのような超高FPSアプリケーションへの道を開いた。
関連論文リスト
- Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction [81.34648970317383]
本稿では,知覚,決定,反応を両立させるシステムであるDispiderを紹介する。
実験により、Dispiderは従来のビデオQAタスクにおいて高いパフォーマンスを維持しているだけでなく、ストリーミングシナリオ応答における従来のオンラインモデルを大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-06T18:55:10Z) - Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - Streaming Detection of Queried Event Start [41.500121314019864]
マルチモーダルビデオ理解ストリーミング検出のための新しいタスクを提案する。
SDQESの目標は、自然言語クエリによって記述された複雑なイベントの開始点を、高い精度と低レイテンシで識別することである。
Ego4Dデータセットに基づく新しいベンチマークと、多様なイベントのストリーミングマルチモーダル検出を研究するためのタスク固有のメトリクスを導入する。
論文 参考訳(メタデータ) (2024-12-04T18:58:27Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。