論文の概要: Improving LLM Video Understanding with 16 Frames Per Second
- arxiv url: http://arxiv.org/abs/2503.13956v1
- Date: Tue, 18 Mar 2025 06:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:02.262955
- Title: Improving LLM Video Understanding with 16 Frames Per Second
- Title(参考訳): 毎秒16フレームによるLLMビデオ理解の改善
- Authors: Yixuan Li, Changli Tang, Jimin Zhuang, Yudong Yang, Guangzhi Sun, Wei Li, Zejun Ma, Chao Zhang,
- Abstract要約: 既存の手法では、フレーム毎秒(FPS)$leqslant$2の固定低フレームレートでサンプリングされた画像から抽出された静的な特徴に頼っている。
F-16は,高速ビデオ理解のために設計された最初のマルチモーダル大言語モデル(LLM)である。
F-16は、キーセマンティック情報を保存しながら、動的視覚特徴を効率的にキャプチャする。
- 参考スコア(独自算出の注目度): 33.70837005629285
- License:
- Abstract: Human vision is dynamic and continuous. However, in video understanding with multimodal large language models (LLMs), existing methods primarily rely on static features extracted from images sampled at a fixed low frame rate of frame-per-second (FPS) $\leqslant$2, leading to critical visual information loss. In this paper, we introduce F-16, the first multimodal LLM designed for high-frame-rate video understanding. By increasing the frame rate to 16 FPS and compressing visual tokens within each 1-second clip, F-16 efficiently captures dynamic visual features while preserving key semantic information. Experimental results demonstrate that higher frame rates considerably enhance video understanding across multiple benchmarks, providing a new approach to improving video LLMs beyond scaling model size or training data. F-16 achieves state-of-the-art performance among 7-billion-parameter video LLMs on both general and fine-grained video understanding benchmarks, such as Video-MME and TemporalBench. Furthermore, F-16 excels in complex spatiotemporal tasks, including high-speed sports analysis (\textit{e.g.}, basketball, football, gymnastics, and diving), outperforming SOTA proprietary visual models like GPT-4o and Gemini-1.5-pro. Additionally, we introduce a novel decoding method for F-16 that enables highly efficient low-frame-rate inference without requiring model retraining. Upon acceptance, we will release the source code, model checkpoints, and data.
- Abstract(参考訳): 人間の視力は動的で連続的である。
しかし、マルチモーダル大言語モデル(LLM)を用いたビデオ理解では、既存の手法は主にフレーム毎秒(FPS)$\leqslant$2の固定低フレームレートでサンプリングされた画像から抽出された静的な特徴に依存しており、視覚的情報を失う。
本稿では,高速ビデオ理解のためのマルチモーダルLLMF-16を紹介する。
フレームレートを16FPSに増やし、各1秒のクリップ内で視覚トークンを圧縮することにより、F-16はキーセマンティック情報を保持しながら、動的視覚特徴を効率的にキャプチャする。
実験結果から,フレームレートが向上すると,複数のベンチマーク間での映像理解が大幅に向上し,モデルサイズやトレーニングデータ以上のビデオLLMを改善するための新たなアプローチが得られた。
F-16は,ビデオMMEやテンポラルベンチなどのビデオ理解ベンチマークにおいて,7ビリオンパラメトリックビデオLLMの最先端性能を実現している。
さらに、F-16は、高速スポーツ分析(\textit{e g }、バスケットボール、サッカー、体操、ダイビング)や、GPT-4oやGemini-1.5-proのようなSOTA独自の視覚モデルを上回る、複雑な時空間的タスクに優れています。
さらに,モデル再学習を必要とせず,高効率な低フレームレート推論が可能なF-16の復号法を提案する。
受け入れ次第、ソースコード、モデルチェックポイント、データをリリースします。
関連論文リスト
- TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens [36.02433030551474]
MiniGPT4-Videoは、ビデオ理解に特化した多モード大言語モデル(LLM)である。
MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。
論文 参考訳(メタデータ) (2024-04-04T12:46:01Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames [39.03408879727955]
クロスモーダルなビデオ検索は、テキストを問合せとして与えられた意味のあるビデオを取得することを目的としている。
一般的な単純な解決策は、ビデオからViTへの入力として少数のフレームを均一にサンプリングすることである。
本稿では,このトレードオフを解消するために,バイレベル最適化プログラムに基づく自動ビデオ圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T05:35:00Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。