論文の概要: SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2407.15841v2
- Date: Sun, 15 Sep 2024 05:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-18 01:16:44.570911
- Title: SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
- Title(参考訳): SlowFast-LLaVA:ビデオ大言語モデルのための強力なトレーニングフリーベースライン
- Authors: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan,
- Abstract要約: 本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
- 参考スコア(独自算出の注目度): 51.712700398020075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video large language model (LLM) that can jointly capture detailed spatial semantics and long-range temporal context without exceeding the token budget of commonly used LLMs. This is realized by using a two-stream SlowFast design of inputs for Video LLMs to aggregate features from sampled frames in an effective way. Specifically, the Slow pathway extracts features at a low frame rate while keeping as much spatial detail as possible (e.g., with 12x24 tokens), and the Fast pathway operates on a high frame rate but uses a larger spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As a result, this design allows us to adequately capture both spatial and temporal features that are beneficial for detailed video understanding. Experimental results show that SF-LLaVA outperforms existing training-free methods on a wide range of video tasks. On some benchmarks, it achieves comparable or even better performance compared to state-of-the-art Video LLMs that are fine-tuned on video datasets. Code has been made available at: https://github.com/apple/ml-slowfast-llava.
- Abstract(参考訳): SlowFast-LLaVA(略してSF-LLaVA)は、トレーニング不要なビデオ大言語モデル(LLM)であり、一般的に使用されるLCMのトークン予算を超えることなく、詳細な空間的意味論と長距離時間的文脈を共同でキャプチャすることができる。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
具体的には、Slow経路は、できるだけ多くの空間的詳細を保ちながら、低フレームレートで特徴を抽出し(例えば、12x24トークン)、Fast経路は高いフレームレートで動作するが、より大きな空間的プーリングストライド(例えば、ダウンサンプリング6x)を使用してモーションキューにフォーカスする。
その結果,詳細な映像理解に有用な空間的特徴と時間的特徴の両方を適切に捉えることが可能となった。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
いくつかのベンチマークでは、ビデオデータセットに微調整された最先端のVideo LLMと比較して、同等またはそれ以上のパフォーマンスを実現している。
コードはhttps://github.com/apple/ml-slowfast-llava.comで公開されている。
関連論文リスト
- Slow-Fast Architecture for Video Multi-Modal Large Language Models [42.3957835391319]
既存の方法では、事前に定義されたルールを使用してビデオ表現を圧縮し、マルチモーダルな大言語モデルに入力する。
本稿では、このトレードオフを自然に回避し、空間的詳細を保存しながらより多くの入力フレームを使用できる、新しい低速アーキテクチャを提案する。
提案モデルでは,入力容量を16フレームから128フレームに拡張し,計算能力は3%向上した。
論文 参考訳(メタデータ) (2025-04-02T03:24:58Z) - FastVID: Dynamic Density Pruning for Fast Video Large Language Models [38.267065642416554]
我々は,FastVIDと呼ばれる高速ビデオLLMのための動的密度計算法を提案する。
FastVIDは、ビデオを時間的に順序付けられたセグメントに分割して、時間構造を保存し、重要な視覚情報を維持するために密度ベースのトークンプルーニング戦略を適用する。
本手法は時間的・視覚的整合性を維持しながら計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-03-14T08:33:08Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation [153.46240555355408]
SlowFast-VGenはアクション駆動長ビデオ生成のための新しいデュアルスピード学習システムである。
本稿では,世界ダイナミクスのスローラーニングのための条件付きビデオ拡散モデルを提案する。
本研究では,内在学習ループを外在学習ループにシームレスに統合する低速学習ループアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:55:52Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Slot-VLM: SlowFast Slots for Video-Language Modeling [39.474247695753725]
ビデオ言語モデル(VLM)は,大規模言語モデル(LLM)の進歩によって実現される
本研究では,意味的に分解されたビデオトークンを生成するための新しいフレームワークであるSlot-VLMを紹介する。
Slot-VLMの有効性を実験的に検証し,ビデオ質問応答における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-20T15:30:09Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。