論文の概要: Frame Sampling Strategies Matter: A Benchmark for small vision language models
- arxiv url: http://arxiv.org/abs/2509.14769v1
- Date: Thu, 18 Sep 2025 09:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.142435
- Title: Frame Sampling Strategies Matter: A Benchmark for small vision language models
- Title(参考訳): フレームサンプリング戦略の重要事項:小型視覚言語モデルのベンチマーク
- Authors: Marija Brkic, Anas Filali Razzouki, Yannis Tevissen, Khalil Guetari, Mounim A. El Yacoubi,
- Abstract要約: ビデオ質問応答のための最先端の小型視覚言語モデルのフレーム精度の最初のベンチマークを提案する。
その結果,疑わしいバイアスが確認され,異なるフレームサンプリング手法によるSVLMのデータ固有動作とタスク固有動作の両方が強調された。
- 参考スコア(独自算出の注目度): 3.719563722270237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparing vision language models on videos is particularly complex, as the performances is jointly determined by the model's visual representation capacity and the frame-sampling strategy used to construct the input. Current video benchmarks are suspected to suffer from substantial frame-sampling bias, as models are evaluated with different frame selection strategies. In this work, we propose the first frame-accurate benchmark of state-of-the-art small VLMs for video question-answering, evaluated under controlled frame-sampling strategies. Our results confirm the suspected bias and highlight both data-specific and task-specific behaviors of SVLMs under different frame-sampling techniques. By open-sourcing our benchmarking code, we provide the community with a reproducible and unbiased protocol for evaluating video VLMs and emphasize the need for standardized frame-sampling strategies tailored to each benchmarking dataset in future research.
- Abstract(参考訳): ビデオ上での視覚言語モデルの比較は特に複雑であり、その性能はモデルの視覚表現能力と入力を構築するのに使用されるフレームサンプリング戦略によって共同で決定される。
現在のビデオベンチマークは、異なるフレーム選択戦略でモデルを評価することにより、かなりのフレームサンプリングバイアスに悩まされていると疑われている。
本研究では,制御されたフレームサンプリング戦略の下で評価されたビデオ質問応答のための,最先端の小型VLMの最初のフレーム精度ベンチマークを提案する。
その結果,疑わしいバイアスが確認され,異なるフレームサンプリング手法によるSVLMのデータ固有動作とタスク固有動作の両方が強調された。
ベンチマークコードをオープンソース化することで、ビデオVLMを評価するための再現可能で偏りのないプロトコルをコミュニティに提供するとともに、将来の研究において各ベンチマークデータセットに合わせた標準化されたフレームサンプリング戦略の必要性を強調します。
関連論文リスト
- DUAL-VAD: Dual Benchmarks and Anomaly-Focused Sampling for Video Anomaly Detection [8.294763803639391]
ビデオ異常検出(VAD)は、監視と公衆の安全のために重要である。
既存のベンチマークはフレームレベルかビデオレベルのタスクに限られている。
本研究は、フルビデオカバレッジを維持しながら、異常度セグメントを優先するソフトマックスベースのフレーム割り当て戦略を導入する。
論文 参考訳(メタデータ) (2025-09-15T05:48:22Z) - Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models [51.67019924750931]
Video-LevelGaugeは、大規模ビデオ言語モデル(LVLM)における位置バイアスを評価するために設計されたベンチマークである。
我々は、標準化されたプローブとカスタマイズされたコンテキスト設定を採用し、コンテキスト長、プローブ位置、コンテキストタイプを柔軟に制御できる。
ベンチマークでは、複数のタイプにまたがる438の動画を手動でキュレートし、117の高品質なマルチチョイスの質問と120のオープンエンドの質問を得た。
論文 参考訳(メタデータ) (2025-08-27T07:58:16Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - An Empirical Comparison of Video Frame Sampling Methods for Multi-Modal RAG Retrieval [1.6581184950812533]
自然言語質問を用いたビデオ・フレーム検索におけるフレームサンプリング手法のトレードオフについて検討する。
本稿では,ビデオRAGパターンが必要とするベクトルデータベース内の画像データ(ビデオフレーム)の保存と検索に焦点を当てた。
論文 参考訳(メタデータ) (2024-07-22T11:44:08Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - MGSampler: An Explainable Sampling Strategy for Video Action Recognition [30.516462193231888]
Motion-Guided Sampler (MGSampler) と呼ばれる、説明可能で適応性が高く効果的なフレームサンプラーを紹介します。
私たちの基本的な動機は、モーションは重要で普遍的な信号であり、ビデオからフレームを適応的に選択できるということです。
MGSamplerは、既存のビデオアーキテクチャに組み込むことができる新しい原則化された包括的なサンプルスキームを提供します。
論文 参考訳(メタデータ) (2021-04-20T13:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。