論文の概要: SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2503.18943v1
- Date: Mon, 24 Mar 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:17.423352
- Title: SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding
- Title(参考訳): SlowFast-LLaVA-1.5:長文ビデオ理解のためのトーケン能率ビデオ大言語モデルの一家系
- Authors: Mingze Xu, Mingfei Gao, Shiyu Li, Jiasen Lu, Zhe Gan, Zhengfeng Lai, Meng Cao, Kai Kang, Yinfei Yang, Afshin Dehghan,
- Abstract要約: ビデオ大言語モデル(LLM)のファミリーであるSlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。
このモデルファミリは2ストリームのSlowFastメカニズムを使用し、長距離時間コンテキストの効率的なモデリングを可能にする。
合理化されたトレーニングパイプラインと高品質なデータミキシングによって最適化された、1Bから7Bパラメータの範囲のモデルを提供します。
- 参考スコア(独自算出の注目度): 70.84791600974337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SlowFast-LLaVA-1.5 (abbreviated as SF-LLaVA-1.5), a family of video large language models (LLMs) offering a token-efficient solution for long-form video understanding. This model family employs the two-stream SlowFast mechanism, enabling efficient modeling of long-range temporal context to meet the demand for lightweight, mobile-friendly Video LLMs. We provide models ranging from 1B to 7B parameters, optimized through a streamlined training pipeline and a high-quality data mixture composed of publicly available datasets. Experimental results demonstrate that SF-LLaVA-1.5 achieves competitive performance on a wide range of video and image benchmarks, with robust results across all model sizes. Notably, SF-LLaVA-1.5 achieves state-of-the-art results in long-form video understanding (e.g., LongVideoBench and MLVU) and excels at small scales (1B and 3B) across various video benchmarks.
- Abstract(参考訳): SlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。
このモデルファミリは2ストリームのSlowFast機構を用いており、より軽量でモバイルフレンドリーなビデオLLMの需要を満たすために、長距離時間コンテキストの効率的なモデリングを可能にする。
トレーニングパイプラインの合理化と,公開データセットで構成される高品質なデータミックスによって最適化された,1Bから7Bパラメータのモデルを提供します。
実験により, SF-LLaVA-1.5は, 様々なビデオおよび画像のベンチマークにおいて, 全てのモデルサイズで頑健な結果が得られることを示した。
特に、SF-LLaVA-1.5は、長大なビデオ理解(例えば、LongVideoBenchとMLVU)における最先端の結果を達成し、様々なビデオベンチマークで小さなスケール(1Bと3B)で出力する。
関連論文リスト
- Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models [90.10322077894033]
長文マルチモーダル学習のためのフロンティア視覚言語モデル(VLM)のファミリーであるEagle 2.5を紹介する。
我々の研究は、長いビデオ理解と高解像度画像理解の課題に対処する。
本稿では,ストーリーレベルのアノテーションとクリップレベルのアノテーションを統合した新しいデータセットであるEagle-Video-110Kを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:57:28Z) - An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - Slow-Fast Architecture for Video Multi-Modal Large Language Models [42.3957835391319]
既存の方法では、事前に定義されたルールを使用してビデオ表現を圧縮し、マルチモーダルな大言語モデルに入力する。
本稿では、このトレードオフを自然に回避し、空間的詳細を保存しながらより多くの入力フレームを使用できる、新しい低速アーキテクチャを提案する。
提案モデルでは,入力容量を16フレームから128フレームに拡張し,計算能力は3%向上した。
論文 参考訳(メタデータ) (2025-04-02T03:24:58Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input [34.50993235961505]
Kangarooは、長いビデオを処理するという課題に対処するための強力なビデオLMMである。
データキュレーションシステムは、視覚言語による事前学習と命令チューニングのための高品質なアノテーションを備えた大規模データセットを構築する。
長いビデオに対応するための解像度と入力フレームの数を徐々に増やしたカリキュラムトレーニングパイプライン。
論文 参考訳(メタデータ) (2024-08-28T05:34:14Z) - LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。
LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。