論文の概要: StreamChat: Chatting with Streaming Video
- arxiv url: http://arxiv.org/abs/2412.08646v1
- Date: Wed, 11 Dec 2024 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:02.491483
- Title: StreamChat: Chatting with Streaming Video
- Title(参考訳): StreamChat: ストリーミングビデオによるチャット
- Authors: Jihao Liu, Zhiding Yu, Shiyi Lan, Shihao Wang, Rongyao Fang, Jan Kautz, Hongsheng Li, Jose M. Alvare,
- Abstract要約: StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
- 参考スコア(独自算出の注目度): 85.02875830683637
- License:
- Abstract: This paper presents StreamChat, a novel approach that enhances the interaction capabilities of Large Multimodal Models (LMMs) with streaming video content. In streaming interaction scenarios, existing methods rely solely on visual information available at the moment a question is posed, resulting in significant delays as the model remains unaware of subsequent changes in the streaming video. StreamChat addresses this limitation by innovatively updating the visual context at each decoding step, ensuring that the model utilizes up-to-date video content throughout the decoding process. Additionally, we introduce a flexible and efficient crossattention-based architecture to process dynamic streaming inputs while maintaining inference efficiency for streaming interactions. Furthermore, we construct a new dense instruction dataset to facilitate the training of streaming interaction models, complemented by a parallel 3D-RoPE mechanism that encodes the relative temporal information of visual and text tokens. Experimental results demonstrate that StreamChat achieves competitive performance on established image and video benchmarks and exhibits superior capabilities in streaming interaction scenarios compared to state-of-the-art video LMM.
- Abstract(参考訳): 本稿では,LMM(Large Multimodal Models)とストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチであるStreamChatを提案する。
ストリーミングインタラクションのシナリオでは、既存の手法は、質問が提示された時点で利用可能な視覚情報のみに依存しており、モデルがその後のストリーミングビデオの変化に気付かないままでいるため、大きな遅延が発生する。
StreamChatはこの制限に対処するため、デコーディングの各ステップで視覚的コンテキストを革新的に更新し、デコーディングプロセス全体を通じて最新のビデオコンテンツを活用する。
さらに、動的ストリーミング入力を処理するために、フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入し、ストリーミングインタラクションの推論効率を維持しながら、動的ストリーミング入力を処理する。
さらに,視覚およびテキストトークンの相対時間情報を符号化する並列3D-RoPE機構によって補完される,ストリーミングインタラクションモデルのトレーニングを容易にするために,新たな高密度な命令データセットを構築した。
実験により、StreamChatは確立された画像とビデオのベンチマーク上での競合性能を実現し、最先端のビデオLMMと比較して、ストリーミングインタラクションシナリオにおいて優れた性能を示すことが示された。
関連論文リスト
- Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - Streaming Detection of Queried Event Start [41.500121314019864]
マルチモーダルビデオ理解ストリーミング検出のための新しいタスクを提案する。
SDQESの目標は、自然言語クエリによって記述された複雑なイベントの開始点を、高い精度と低レイテンシで識別することである。
Ego4Dデータセットに基づく新しいベンチマークと、多様なイベントのストリーミングマルチモーダル検出を研究するためのタスク固有のメトリクスを導入する。
論文 参考訳(メタデータ) (2024-12-04T18:58:27Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。