論文の概要: Generative Frame Sampler for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2503.09146v1
- Date: Wed, 12 Mar 2025 08:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.657801
- Title: Generative Frame Sampler for Long Video Understanding
- Title(参考訳): 長時間ビデオ理解のための生成フレームサンプリング装置
- Authors: Linli Yao, Haoning Wu, Kun Ouyang, Yuanxing Zhang, Caiming Xiong, Bei Chen, Xu Sun, Junnan Li,
- Abstract要約: 本稿では,ビデオLLMと統合されたプラグイン・アンド・プレイモジュールであるGenerative Frame Sampler (GenS)を導入し,映像知覚の効率化を図る。
大規模な実験により、GenSは様々なVideoLLMのパフォーマンスを継続的に向上させることが示された。
GenSを装着すると、オープンソースのVideoLLMは、長大なビデオベンチマークで印象的な結果が得られる。
- 参考スコア(独自算出の注目度): 69.87425354364542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in Video Large Language Models (VideoLLMs), effectively understanding long-form videos remains a significant challenge. Perceiving lengthy videos containing thousands of frames poses substantial computational burden. To mitigate this issue, this paper introduces Generative Frame Sampler (GenS), a plug-and-play module integrated with VideoLLMs to facilitate efficient lengthy video perception. Built upon a lightweight VideoLLM, GenS leverages its inherent vision-language capabilities to identify question-relevant frames. To facilitate effective retrieval, we construct GenS-Video-150K, a large-scale video instruction dataset with dense frame relevance annotations. Extensive experiments demonstrate that GenS consistently boosts the performance of various VideoLLMs, including open-source models (Qwen2-VL-7B, Aria-25B, VILA-40B, LLaVA-Video-7B/72B) and proprietary assistants (GPT-4o, Gemini). When equipped with GenS, open-source VideoLLMs achieve impressive state-of-the-art results on long-form video benchmarks: LLaVA-Video-72B reaches 66.8 (+4.3) on LongVideoBench and 77.0 (+2.7) on MLVU, while Aria obtains 39.2 on HourVideo surpassing the Gemini-1.5-pro by 1.9 points. We will release all datasets and models at https://generative-sampler.github.io.
- Abstract(参考訳): 近年のビデオ言語モデル(VideoLLMs)の進歩にもかかわらず、長編動画を効果的に理解することは大きな課題である。
何千ものフレームを含む長いビデオを認識することは、かなりの計算負荷を伴う。
この問題を軽減するために,ビデオLLMと統合されたプラグイン・アンド・プレイモジュールであるGenerative Frame Sampler (GenS)を導入する。
軽量のVideoLLMをベースとして構築されたGenSは、固有の視覚言語機能を活用して、質問関連フレームを識別する。
そこで我々は,フレーム関連アノテーションを付加した大規模ビデオインストラクションデータセットGenS-Video-150Kを構築した。
大規模な実験により、GenSはオープンソースモデル(Qwen2-VL-7B、Aria-25B、VILA-40B、LLaVA-Video-7B/72B)やプロプライエタリなアシスタント(GPT-4o、Gemini)など、様々なビデオLLMの性能を継続的に向上することを示した。
LLaVA-Video-72BはLongVideoBenchで66.8 (+4.3)、MLVUで77.0 (+2.7)、AriaはHourVideoで39.2、Gemini-1.5-proで1.9ポイントを超えた。
すべてのデータセットとモデルをhttps://generative-sampler.github.ioでリリースします。
関連論文リスト
- VideoAds for Fast-Paced Video Understanding: Where Opensource Foundation Models Beat GPT-4o & Gemini-1.5 Pro [24.033789262642777]
広告ビデオ上でMLLMのパフォーマンスをベンチマークするための最初のデータセットであるVideoAdsを紹介する。
VideoAdsは、複雑な時間構造を持つよく計算された広告ビデオで構成されており、テキストに手動で注釈付けされた多様な質問が伴っている。
オープンソースのMLLMであるQwen2.5-VL-72Bは、ビデオ広告で73.35%の精度を実現し、GPT-4oとGemini-1.5 Proを上回っている。
論文 参考訳(メタデータ) (2025-04-12T17:05:35Z) - SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding [70.84791600974337]
ビデオ大言語モデル(LLM)のファミリーであるSlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。
2ストリームのSlowFastメカニズムを合理化されたトレーニングパイプラインに組み込む。
我々は、公開データセットのみを慎重にキュレートしたデータ混合を用いて、共同でビデオイメージトレーニングを行う。
論文 参考訳(メタデータ) (2025-03-24T17:59:07Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension [83.00346826110041]
Video-RAGはトレーニング不要で費用対効果の高いパイプラインで、視覚的に整列した補助テキストを使って、モダリティ間のアライメントを促進する。
72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-20T07:44:34Z) - Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。
LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - PG-Video-LLaVA: Pixel Grounding Large Video-Language Models [52.83065081926238]
PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
論文 参考訳(メタデータ) (2023-11-22T14:48:30Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。