論文の概要: Improving Video Question Answering through query-based frame selection
- arxiv url: http://arxiv.org/abs/2601.07459v1
- Date: Mon, 12 Jan 2026 12:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.367042
- Title: Improving Video Question Answering through query-based frame selection
- Title(参考訳): クェリベースのフレーム選択によるビデオ質問応答の改善
- Authors: Himanshu Patil, Geo Jolly, Ramana Raja Buddala, Ganesh Ramakrishnan, Rohit Saluja,
- Abstract要約: Video Question Answering (VideoQA) モデルは、視聴覚コンテンツに対する理解とインタラクションを強化する。
重い計算要求のため、ビデオQAのほとんどの大きなビジュアル言語モデル(VLM)は、動画を一様にサンプリングすることで固定数のフレームに依存している。
本稿では,サブモジュール相互情報(SMI)関数に基づいて,質問に関連のある新しい問合せベースのフレーム選択を提案する。
- 参考スコア(独自算出の注目度): 15.416301612152004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VideoQA) models enhance understanding and interaction with audiovisual content, making it more accessible, searchable, and useful for a wide range of fields such as education, surveillance, entertainment, and content creation. Due to heavy compute requirements, most large visual language models (VLMs) for VideoQA rely on a fixed number of frames by uniformly sampling the video. However, this process does not pick important frames or capture the context of the video. We present a novel query-based selection of frames relevant to the questions based on the submodular mutual Information (SMI) functions. By replacing uniform frame sampling with query-based selection, our method ensures that the chosen frames provide complementary and essential visual information for accurate VideoQA. We evaluate our approach on the MVBench dataset, which spans a diverse set of multi-action video tasks. VideoQA accuracy on this dataset was assessed using two VLMs, namely Video-LLaVA and LLaVA-NeXT, both of which originally employed uniform frame sampling. Experiments were conducted using both uniform and query-based sampling strategies. An accuracy improvement of up to \textbf{4\%} was observed when using query-based frame selection over uniform sampling. Qualitative analysis further highlights that query-based selection, using SMI functions, consistently picks frames better aligned with the question. We opine that such query-based frame selection can enhance accuracy in a wide range of tasks that rely on only a subset of video frames.
- Abstract(参考訳): Video Question Answering (VideoQA) モデルは、視聴覚コンテンツに対する理解と相互作用を強化し、教育、監視、エンターテイメント、コンテンツ制作など幅広い分野において、よりアクセスしやすく、検索しやすく、有用である。
重い計算要求のため、ビデオQAのほとんどの大きなビジュアル言語モデル(VLM)は、動画を一様にサンプリングすることで固定数のフレームに依存している。
しかし、このプロセスは重要なフレームを選択したり、ビデオのコンテキストをキャプチャしたりしない。
本稿では,サブモジュール相互情報(SMI)関数に基づいて,質問に関連のある新しい問合せベースのフレーム選択を提案する。
均一なフレームサンプリングをクエリベースの選択に置き換えることで、選択したフレームが正確なビデオQAに対して相補的で重要な視覚情報を提供することが保証される。
マルチアクションビデオタスクの多種多様なセットにまたがるMVBenchデータセットに対するアプローチを評価する。
このデータセットの VideoQA 精度は Video-LLaVA と LLaVA-NeXT の2つの VLM を用いて評価された。
均一および問合せに基づくサンプリング手法を用いて実験を行った。
また,一様サンプリングによる問合せベースのフレーム選択では,最大で4\%の精度向上が見られた。
質的な分析では、SMI関数を使用したクエリベースの選択が、常に問題に適合したフレームを選択することを強調している。
このようなクエリベースのフレーム選択は、ビデオフレームのサブセットにのみ依存する幅広いタスクにおいて、精度を高めることができる。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs [13.306662159600677]
適応型フレーム選択とマルチテンポラリスケーリングのための新しいアプローチであるビデオQFrameを紹介する。
Q-Frameは、CLIPのようなテキスト画像マッチングネットワークによって生成されたトレーニング不要のプラグイン・アンド・プレイ戦略を採用している。
ベンチマークデータセットの広範な実験を通じて,Q-Frameの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-27T11:30:51Z) - M-LLM Based Video Frame Selection for Efficient Video Understanding [60.93714759178143]
本稿では,ユーザのクエリに関連性の高いフレームを適応的に選択する,軽量なM-LLMベースのフレーム選択手法を提案する。
選択されたフレームは、視覚的推論と質問応答のための凍った下流ビデオM-LLMによって消化される。
論文 参考訳(メタデータ) (2025-02-27T01:44:13Z) - End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling [43.024232182899354]
そこで我々は,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。
本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。
広く採用されている3つのベンチマークによる実験結果から,我々のモデルは既存のビデオQA手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-07-21T04:09:37Z) - An Empirical Study of Frame Selection for Text-to-Video Retrieval [62.28080029331507]
テキスト・ツー・ビデオ検索(TVR)は、クエリーテキストが与えられた大きなビデオギャラリーで最も関連性の高いビデオを見つけることを目的としている。
既存の方法は通常、TVRのビデオコンテンツを表すためにビデオ内のフレームのサブセットを選択する。
本稿では,TVRにおけるフレーム選択の実証的研究を行う。
論文 参考訳(メタデータ) (2023-11-01T05:03:48Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。