論文の概要: SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2407.15841v1
- Date: Mon, 22 Jul 2024 17:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 13:41:12.851656
- Title: SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
- Title(参考訳): SlowFast-LLaVA:ビデオ大言語モデルのための強力なトレーニングフリーベースライン
- Authors: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan,
- Abstract要約: 本研究では,空間的セマンティクスと長時間の時間的文脈を協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
- 参考スコア(独自算出の注目度): 51.712700398020075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video large language model (LLM) that can jointly capture the detailed spatial semantics and long-range temporal context without exceeding the token budget of commonly used LLMs. This is realized by using a two-stream SlowFast design of inputs for Video LLMs to aggregate features from sampled video frames in an effective way. Specifically, the Slow pathway extracts features at a low frame rate while keeping as many spatial details as possible (e.g., with 24x24 tokens), and the Fast pathway operates on a high frame rate but uses a larger spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As a result, this design allows us to adequately capture both spatial and temporal features that are beneficial for understanding details along the video. Experimental results show that SF-LLaVA outperforms existing training-free methods on a wide range of video tasks. On some benchmarks, it achieves comparable or even better performance compared to state-of-the-art Video LLMs that are fine-tuned on video datasets.
- Abstract(参考訳): SlowFast-LLaVA(略してSF-LLaVA)は、トレーニング不要なビデオ大言語モデル(LLM)であり、一般的に使用されるLCMのトークン予算を超えることなく、詳細な空間的意味論と長距離時間的文脈を共同でキャプチャすることができる。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプリングされたビデオフレームの特徴を効果的に集約することで実現される。
具体的には、Slow経路は、できるだけ多くの空間的詳細(例えば24x24トークン)を維持しながら、低フレームレートで特徴を抽出し、Fast経路は高いフレームレートで動作するが、より大きな空間的プーリングストライド(例えば、ダウンサンプリング6x)を使用してモーションキューにフォーカスする。
その結果,映像の詳細な理解に有用な空間的特徴と時間的特徴の両方を適切に捉えることが可能となった。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
いくつかのベンチマークでは、ビデオデータセットに微調整された最先端のVideo LLMと比較して、同等またはそれ以上のパフォーマンスを実現している。
関連論文リスト
- SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation [153.46240555355408]
SlowFast-VGenはアクション駆動長ビデオ生成のための新しいデュアルスピード学習システムである。
本稿では,世界ダイナミクスのスローラーニングのための条件付きビデオ拡散モデルを提案する。
本研究では,内在学習ループを外在学習ループにシームレスに統合する低速学習ループアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:55:52Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Slot-VLM: SlowFast Slots for Video-Language Modeling [39.474247695753725]
ビデオ言語モデル(VLM)は,大規模言語モデル(LLM)の進歩によって実現される
本研究では,意味的に分解されたビデオトークンを生成するための新しいフレームワークであるSlot-VLMを紹介する。
Slot-VLMの有効性を実験的に検証し,ビデオ質問応答における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-20T15:30:09Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。