論文の概要: BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding
- arxiv url: http://arxiv.org/abs/2503.21483v1
- Date: Thu, 27 Mar 2025 13:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:28.694462
- Title: BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding
- Title(参考訳): BOLT:ロングフォームビデオ理解のためのトレーニング無しで大規模視線モデルを強化
- Authors: Shuming Liu, Chen Zhao, Tianqi Xu, Bernard Ghanem,
- Abstract要約: 大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
- 参考スコア(独自算出の注目度): 51.49345400300556
- License:
- Abstract: Large video-language models (VLMs) have demonstrated promising progress in various video understanding tasks. However, their effectiveness in long-form video analysis is constrained by limited context windows. Traditional approaches, such as uniform frame sampling, often inevitably allocate resources to irrelevant content, diminishing their effectiveness in real-world scenarios. In this paper, we introduce BOLT, a method to BOost Large VLMs without additional Training through a comprehensive study of frame selection strategies. First, to enable a more realistic evaluation of VLMs in long-form video understanding, we propose a multi-source retrieval evaluation setting. Our findings reveal that uniform sampling performs poorly in noisy contexts, underscoring the importance of selecting the right frames. Second, we explore several frame selection strategies based on query-frame similarity and analyze their effectiveness at inference time. Our results show that inverse transform sampling yields the most significant performance improvement, increasing accuracy on the Video-MME benchmark from 53.8% to 56.1% and MLVU benchmark from 58.9% to 63.4%. Our code is available at https://github.com/sming256/BOLT.
- Abstract(参考訳): 大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
しかし、長めのビデオ解析におけるそれらの効果は、限られたコンテキストウィンドウによって制限される。
均一なフレームサンプリングのような伝統的なアプローチは、しばしば必然的に無関係なコンテンツにリソースを割り当て、現実のシナリオにおけるその効果を低下させる。
本稿では,フレーム選択戦略の包括的研究を通じて,付加的なトレーニングを伴わない大規模VLMのブースト手法であるBOLTを紹介する。
まず、長大なビデオ理解におけるVLMのより現実的な評価を可能にするために、マルチソース検索評価設定を提案する。
その結果,一様サンプリングはノイズの多い環境下では性能が悪く,適切なフレームを選択することの重要性が強調された。
第2に,クエリフレームの類似性に基づくいくつかのフレーム選択戦略について検討し,提案手法の有効性を推定時に解析する。
以上の結果から,逆変換サンプリングの精度は53.8%から56.1%に向上し,MLVUベンチマークは58.9%から63.4%に向上した。
私たちのコードはhttps://github.com/sming256/BOLT.comで利用可能です。
関連論文リスト
- VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding [48.26536049440913]
ビデオ大マルチモーダルモデル(LMM)は、ビデオ理解と推論能力を大幅に改善した。
彼らのパフォーマンスは、トレーニングデータで不足しているOOD(out-of-distriion)タスクに低下する。
OODデータセットの微調整のような従来の手法は、高い計算コストのために実用的ではない。
OODタスクのための新しいビデオインコンテキスト学習フレームワークであるVideoICLを提案する。
論文 参考訳(メタデータ) (2024-12-03T05:54:43Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
長文理解は,ビデオデータの冗長度が高く,クエリ非関連情報の豊富さによって複雑になる。
我々は,LLM推論のためのクエリ適応的かつ階層的なビデオ表現を構築する,トレーニング不要なフレームワークであるVideoTreeを提案する。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。