論文の概要: BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding
- arxiv url: http://arxiv.org/abs/2503.21483v1
- Date: Thu, 27 Mar 2025 13:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.53862
- Title: BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding
- Title(参考訳): BOLT:ロングフォームビデオ理解のためのトレーニング無しで大規模視線モデルを強化
- Authors: Shuming Liu, Chen Zhao, Tianqi Xu, Bernard Ghanem,
- Abstract要約: 大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
- 参考スコア(独自算出の注目度): 51.49345400300556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large video-language models (VLMs) have demonstrated promising progress in various video understanding tasks. However, their effectiveness in long-form video analysis is constrained by limited context windows. Traditional approaches, such as uniform frame sampling, often inevitably allocate resources to irrelevant content, diminishing their effectiveness in real-world scenarios. In this paper, we introduce BOLT, a method to BOost Large VLMs without additional Training through a comprehensive study of frame selection strategies. First, to enable a more realistic evaluation of VLMs in long-form video understanding, we propose a multi-source retrieval evaluation setting. Our findings reveal that uniform sampling performs poorly in noisy contexts, underscoring the importance of selecting the right frames. Second, we explore several frame selection strategies based on query-frame similarity and analyze their effectiveness at inference time. Our results show that inverse transform sampling yields the most significant performance improvement, increasing accuracy on the Video-MME benchmark from 53.8% to 56.1% and MLVU benchmark from 58.9% to 63.4%. Our code is available at https://github.com/sming256/BOLT.
- Abstract(参考訳): 大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
しかし、長めのビデオ解析におけるそれらの効果は、限られたコンテキストウィンドウによって制限される。
均一なフレームサンプリングのような伝統的なアプローチは、しばしば必然的に無関係なコンテンツにリソースを割り当て、現実のシナリオにおけるその効果を低下させる。
本稿では,フレーム選択戦略の包括的研究を通じて,付加的なトレーニングを伴わない大規模VLMのブースト手法であるBOLTを紹介する。
まず、長大なビデオ理解におけるVLMのより現実的な評価を可能にするために、マルチソース検索評価設定を提案する。
その結果,一様サンプリングはノイズの多い環境下では性能が悪く,適切なフレームを選択することの重要性が強調された。
第2に,クエリフレームの類似性に基づくいくつかのフレーム選択戦略について検討し,提案手法の有効性を推定時に解析する。
以上の結果から,逆変換サンプリングの精度は53.8%から56.1%に向上し,MLVUベンチマークは58.9%から63.4%に向上した。
私たちのコードはhttps://github.com/sming256/BOLT.comで利用可能です。
関連論文リスト
- An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。
AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。
VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文 参考訳(メタデータ) (2025-03-16T16:14:52Z) - RAG-Adapter: A Plug-and-Play RAG-enhanced Framework for Long Video Understanding [12.617410132077854]
提案するRAG-Adapterは,与えられた質問に最も関係のあるフレームをサンプリングすることで,テスト中の情報損失を低減するためのプラグイン・アンド・プレイ・フレームワークである。
また、RAG-Adapterのサンプリング効率をさらに高めるために、GCL(Grouped-supervised Contrastive Learning)手法も導入する。
論文 参考訳(メタデータ) (2025-03-11T16:10:43Z) - VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding [48.26536049440913]
ビデオ大マルチモーダルモデル(LMM)は、ビデオ理解と推論能力を大幅に改善した。
彼らのパフォーマンスは、トレーニングデータで不足しているOOD(out-of-distriion)タスクに低下する。
OODデータセットの微調整のような従来の手法は、高い計算コストのために実用的ではない。
OODタスクのための新しいビデオインコンテキスト学習フレームワークであるVideoICLを提案する。
論文 参考訳(メタデータ) (2024-12-03T05:54:43Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。