論文の概要: KFS-Bench: Comprehensive Evaluation of Key Frame Sampling in Long Video Understanding
- arxiv url: http://arxiv.org/abs/2512.14017v1
- Date: Tue, 16 Dec 2025 02:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.551092
- Title: KFS-Bench: Comprehensive Evaluation of Key Frame Sampling in Long Video Understanding
- Title(参考訳): KFS-Bench:ロングビデオ理解におけるキーフレームサンプリングの総合評価
- Authors: Zongyao Li, Kengo Ishida, Satoshi Yamazaki, Xiaotong Ji, Jianquan Liu,
- Abstract要約: 我々は、長いビデオ質問応答(QA)における鍵フレームサンプリングのための最初のベンチマークであるKFS-Benchを提案する。
KFS-Benchはサンプリング戦略の直接的かつ堅牢な評価を可能にするマルチシーンアノテーションを備えている。
適応的にバランスの取れたサンプリング手法は,キーフレームサンプリングとQA性能の両方において優れた性能を実現する。
- 参考スコア(独自算出の注目度): 6.320777997334055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose KFS-Bench, the first benchmark for key frame sampling in long video question answering (QA), featuring multi-scene annotations to enable direct and robust evaluation of sampling strategies. Key frame sampling is crucial for efficient long-form video understanding. In long video QA, selecting informative frames enables multimodal large language models (MLLMs) to improve both accuracy and efficiency. KFS-Bench addresses the limitation of prior works that only indirectly assess frame selection quality via QA accuracy. By providing ground-truth annotations of multiple disjoint scenes required per question, KFS-Bench allows us to directly analyze how different sampling approaches capture essential content across an entire long video. Using KFS-Bench, we conduct a comprehensive study of key frame sampling methods and identify that not only sampling precision but also scene coverage and sampling balance are the key factors influencing QA performance. Regarding all the factors, we design a novel sampling quality metric that correlates with QA accuracy. Furthermore, we develop a novel key frame sampling method that leverages question-video relevance to balance sampling diversity against question-frame similarity, thereby improving coverage of relevant scenes. Our adaptively balanced sampling approach achieves superior performance in both key frame sampling and QA performance. The benchmark is available at https://github.com/NEC-VID/KFS-Bench.
- Abstract(参考訳): 長ビデオ質問応答(QA)におけるキーフレームサンプリングのための最初のベンチマークであるKFS-Benchを提案し、サンプリング戦略の直接的かつ堅牢な評価を可能にするマルチシーンアノテーションを特徴とする。
キーフレームサンプリングは、効率的なロングフォームビデオ理解に不可欠である。
長ビデオQAでは、情報フレームの選択により、マルチモーダル大言語モデル(MLLM)が精度と効率の両方を改善することができる。
KFS-Benchは、QA精度でフレーム選択品質を間接的に評価する以前の作業の制限に対処する。
KFS-Benchは、質問ごとに要求される複数の不一致シーンの基調的なアノテーションを提供することで、異なるサンプリングアプローチが、長いビデオ全体にわたって重要なコンテンツをどのように捉えているかを直接分析することができる。
KFS-Benchを用いて、キーフレームサンプリング手法の総合的な研究を行い、サンプリング精度だけでなく、シーンカバレッジとサンプリングバランスもQA性能に影響を与える重要な要因であることを確認した。
これらすべての要因について,QAの精度と相関する新しいサンプリング品質指標を設計する。
さらに,質問ビデオの関連性を生かした新しいキーフレームサンプリング手法を開発し,質問フレームの類似性に対するサンプリングの多様性のバランスをとることにより,関連シーンのカバレッジを向上させる。
適応的にバランスの取れたサンプリング手法は,キーフレームサンプリングとQA性能の両方において優れた性能を実現する。
ベンチマークはhttps://github.com/NEC-VID/KFS-Benchで公開されている。
関連論文リスト
- Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。
データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。
品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:00:21Z) - FOCUS: Efficient Keyframe Selection for Long Video Understanding [26.44459739499484]
マルチモーダル大言語モデル(LMLM)は画像とビデオフレームを視覚トークンとして表現する。
FOCUS(Frame-Optimistic Confidence Upbound Selection)は、厳格なトークン予算の下でフレームを選択するモデルに依存しない選択モジュールである。
20分以上のビデオでは、LongVideoBenchingベンチマークで11.9%の精度向上を達成した。
論文 参考訳(メタデータ) (2025-10-31T08:41:13Z) - A.I.R.: Enabling Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering [15.220013605396396]
A.I.R.はAdaptive, Iterative, Reasoningベースのフレーム選択のためのトレーニング不要のアプローチである。
我々は、複雑なクエリに対して深い意味解析を行うために、強力な視覚言語モデル(VLM)を活用している。
提案手法は基礎VLMの性能を大幅に向上させ,計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-06T01:51:13Z) - LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning [73.90466023069125]
ビデオクリップに適応的にズームイン可能なモデルであるLOVE-R1を提案する。
モデルはまず、密度の高いサンプルフレームが提供されるが、小さな解像度で提供される。
空間的詳細が必要な場合、大きなフレーム解像度で興味のあるクリップを拡大することができる。
論文 参考訳(メタデータ) (2025-09-29T13:43:55Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment [51.3011761744484]
大規模言語モデルは単一の推論で有限フレームしか処理できない。
視覚的コンテキストサンプリングにより複数の予測を提案し,次に最終的な予測を選択するためのスコアリング機構を提案する。
実験により,この手法がビデオ質問の回答の正解を高い割合でカバーしていることが示されている。
論文 参考訳(メタデータ) (2025-03-26T11:53:03Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling [43.024232182899354]
そこで我々は,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。
本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。
広く採用されている3つのベンチマークによる実験結果から,我々のモデルは既存のビデオQA手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-07-21T04:09:37Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。