論文の概要: StreamChat: Chatting with Streaming Video
- arxiv url: http://arxiv.org/abs/2412.08646v1
- Date: Wed, 11 Dec 2024 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:02.491483
- Title: StreamChat: Chatting with Streaming Video
- Title(参考訳): StreamChat: ストリーミングビデオによるチャット
- Authors: Jihao Liu, Zhiding Yu, Shiyi Lan, Shihao Wang, Rongyao Fang, Jan Kautz, Hongsheng Li, Jose M. Alvare,
- Abstract要約: StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
- 参考スコア(独自算出の注目度): 85.02875830683637
- License:
- Abstract: This paper presents StreamChat, a novel approach that enhances the interaction capabilities of Large Multimodal Models (LMMs) with streaming video content. In streaming interaction scenarios, existing methods rely solely on visual information available at the moment a question is posed, resulting in significant delays as the model remains unaware of subsequent changes in the streaming video. StreamChat addresses this limitation by innovatively updating the visual context at each decoding step, ensuring that the model utilizes up-to-date video content throughout the decoding process. Additionally, we introduce a flexible and efficient crossattention-based architecture to process dynamic streaming inputs while maintaining inference efficiency for streaming interactions. Furthermore, we construct a new dense instruction dataset to facilitate the training of streaming interaction models, complemented by a parallel 3D-RoPE mechanism that encodes the relative temporal information of visual and text tokens. Experimental results demonstrate that StreamChat achieves competitive performance on established image and video benchmarks and exhibits superior capabilities in streaming interaction scenarios compared to state-of-the-art video LMM.
- Abstract(参考訳): 本稿では,LMM(Large Multimodal Models)とストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチであるStreamChatを提案する。
ストリーミングインタラクションのシナリオでは、既存の手法は、質問が提示された時点で利用可能な視覚情報のみに依存しており、モデルがその後のストリーミングビデオの変化に気付かないままでいるため、大きな遅延が発生する。
StreamChatはこの制限に対処するため、デコーディングの各ステップで視覚的コンテキストを革新的に更新し、デコーディングプロセス全体を通じて最新のビデオコンテンツを活用する。
さらに、動的ストリーミング入力を処理するために、フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入し、ストリーミングインタラクションの推論効率を維持しながら、動的ストリーミング入力を処理する。
さらに,視覚およびテキストトークンの相対時間情報を符号化する並列3D-RoPE機構によって補完される,ストリーミングインタラクションモデルのトレーニングを容易にするために,新たな高密度な命令データセットを構築した。
実験により、StreamChatは確立された画像とビデオのベンチマーク上での競合性能を実現し、最先端のビデオLMMと比較して、ストリーミングインタラクションシナリオにおいて優れた性能を示すことが示された。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - DeformStream: Deformation-based Adaptive Volumetric Video Streaming [4.366356163044466]
ボリュームビデオストリーミングは没入型3D体験を提供するが、高い帯域幅要件とレイテンシの問題のために大きな課題に直面している。
本稿では,メッシュベースの表現の変形性を生かして,ボリュームビデオストリーミング性能を向上させる新しいフレームワークであるAdaptive Volumetric Video Streamingを紹介する。
論文 参考訳(メタデータ) (2024-09-25T04:43:59Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - Detail-Enhanced Intra- and Inter-modal Interaction for Audio-Visual Emotion Recognition [8.261744063074612]
オーディオ・ビジュアル・感情認識(AVER)のための細部強化型イントラモーダル・インターモーダル・インタラクション・ネットワーク(DE-III)を提案する。
我々は,顔の状態変化をよりよく捉えたテクスチャで映像表現を豊かにするために,光学フロー情報を導入する。
融合モジュールは、光学フロー推定を対応するビデオフレームと統合し、顔のテクスチャ変化の表現を強化する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。