Fugu-MT 論文翻訳(概要): Generative Frame Sampler for Long Video Understanding

論文の概要: Generative Frame Sampler for Long Video Understanding

arxiv url: http://arxiv.org/abs/2503.09146v1
Date: Wed, 12 Mar 2025 08:16:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.657801
Title: Generative Frame Sampler for Long Video Understanding
Title（参考訳）: 長時間ビデオ理解のための生成フレームサンプリング装置
Authors: Linli Yao, Haoning Wu, Kun Ouyang, Yuanxing Zhang, Caiming Xiong, Bei Chen, Xu Sun, Junnan Li,
Abstract要約: 本稿では,ビデオLLMと統合されたプラグイン・アンド・プレイモジュールであるGenerative Frame Sampler (GenS)を導入し,映像知覚の効率化を図る。大規模な実験により、GenSは様々なVideoLLMのパフォーマンスを継続的に向上させることが示された。 GenSを装着すると、オープンソースのVideoLLMは、長大なビデオベンチマークで印象的な結果が得られる。
参考スコア（独自算出の注目度）: 69.87425354364542
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent advances in Video Large Language Models (VideoLLMs), effectively understanding long-form videos remains a significant challenge. Perceiving lengthy videos containing thousands of frames poses substantial computational burden. To mitigate this issue, this paper introduces Generative Frame Sampler (GenS), a plug-and-play module integrated with VideoLLMs to facilitate efficient lengthy video perception. Built upon a lightweight VideoLLM, GenS leverages its inherent vision-language capabilities to identify question-relevant frames. To facilitate effective retrieval, we construct GenS-Video-150K, a large-scale video instruction dataset with dense frame relevance annotations. Extensive experiments demonstrate that GenS consistently boosts the performance of various VideoLLMs, including open-source models (Qwen2-VL-7B, Aria-25B, VILA-40B, LLaVA-Video-7B/72B) and proprietary assistants (GPT-4o, Gemini). When equipped with GenS, open-source VideoLLMs achieve impressive state-of-the-art results on long-form video benchmarks: LLaVA-Video-72B reaches 66.8 (+4.3) on LongVideoBench and 77.0 (+2.7) on MLVU, while Aria obtains 39.2 on HourVideo surpassing the Gemini-1.5-pro by 1.9 points. We will release all datasets and models at https://generative-sampler.github.io.
Abstract（参考訳）: 近年のビデオ言語モデル(VideoLLMs)の進歩にもかかわらず、長編動画を効果的に理解することは大きな課題である。何千ものフレームを含む長いビデオを認識することは、かなりの計算負荷を伴う。この問題を軽減するために,ビデオLLMと統合されたプラグイン・アンド・プレイモジュールであるGenerative Frame Sampler (GenS)を導入する。軽量のVideoLLMをベースとして構築されたGenSは、固有の視覚言語機能を活用して、質問関連フレームを識別する。そこで我々は,フレーム関連アノテーションを付加した大規模ビデオインストラクションデータセットGenS-Video-150Kを構築した。大規模な実験により、GenSはオープンソースモデル(Qwen2-VL-7B、Aria-25B、VILA-40B、LLaVA-Video-7B/72B)やプロプライエタリなアシスタント(GPT-4o、Gemini)など、様々なビデオLLMの性能を継続的に向上することを示した。 LLaVA-Video-72BはLongVideoBenchで66.8 (+4.3)、MLVUで77.0 (+2.7)、AriaはHourVideoで39.2、Gemini-1.5-proで1.9ポイントを超えた。すべてのデータセットとモデルをhttps://generative-sampler.github.ioでリリースします。

関連論文リスト

Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
VideoAds for Fast-Paced Video Understanding: Where Opensource Foundation Models Beat GPT-4o & Gemini-1.5 Pro [24.033789262642777]
広告ビデオ上でMLLMのパフォーマンスをベンチマークするための最初のデータセットであるVideoAdsを紹介する。 VideoAdsは、複雑な時間構造を持つよく計算された広告ビデオで構成されており、テキストに手動で注釈付けされた多様な質問が伴っている。オープンソースのMLLMであるQwen2.5-VL-72Bは、ビデオ広告で73.35%の精度を実現し、GPT-4oとGemini-1.5 Proを上回っている。
論文参考訳（メタデータ） (2025-04-12T17:05:35Z)
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding [70.84791600974337]
ビデオ大言語モデル(LLM)のファミリーであるSlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。 2ストリームのSlowFastメカニズムを合理化されたトレーニングパイプラインに組み込む。我々は、公開データセットのみを慎重にキュレートしたデータ混合を用いて、共同でビデオイメージトレーニングを行う。
論文参考訳（メタデータ） (2025-03-24T17:59:07Z)
TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler [10.92767902813594]
約3.6Bパラメータを持つ軽量で強力なビデオ理解モデルであるTinyLLaVA-Videoを紹介した。我々の設計の基盤はビデオレベルのグループ再サンプリングであり、ビデオレベルの視覚トークン数を著しく削減し、制御する新しいメカニズムである。 TinyLLaVA-Videoは例外的な効率を示し、8A100-40GのGPUで1日間のトレーニングしか必要としない。
論文参考訳（メタデータ） (2025-01-26T13:10:12Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension [83.00346826110041]
Video-RAGはトレーニング不要で費用対効果の高いパイプラインで、視覚的に整列した補助テキストを使って、モダリティ間のアライメントを促進する。 72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-11-20T07:44:34Z)
Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文参考訳（メタデータ） (2024-10-17T16:22:46Z)
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。 SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文参考訳（メタデータ） (2024-09-02T08:52:58Z)
LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。 LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文参考訳（メタデータ） (2024-08-19T17:48:08Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
PG-Video-LLaVA: Pixel Grounding Large Video-Language Models [52.83065081926238]
PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
論文参考訳（メタデータ） (2023-11-22T14:48:30Z)
Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文参考訳（メタデータ） (2023-04-15T06:17:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。