論文の概要: Learning Question-Aware Keyframe Selection with Synthetic Supervision for Video Question Answering
- arxiv url: http://arxiv.org/abs/2603.14953v1
- Date: Mon, 16 Mar 2026 08:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.148596
- Title: Learning Question-Aware Keyframe Selection with Synthetic Supervision for Video Question Answering
- Title(参考訳): ビデオ質問応答のための合成シュミレーションを用いた問合せ対応キーフレーム選択の学習
- Authors: Minchan Kwon, Hyounguk Shon, Junmo Kim,
- Abstract要約: キーフレームの選択は効率性とよりシャープな推論を提供するが、画像とテキストの類似性に依存する場合、監督や冗長なフレーム選択に悩まされる。
情報的監視を提供するLMMから派生した擬似ラベルと,多種多様な補完的証拠を促進するカバーレギュラー化の2つのコンポーネントからなる質問認識選択フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.557860792712171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have recently demonstrated remarkable performance in video question answering (VideoQA), yet reasoning over video remains challenging due to high inference cost and diluted information. Keyframe selection offers efficiency and sharper reasoning but suffers from sparse supervision and redundant frame choices when relying only on image-text similarity. We present a question-aware keyframe selection framework with two components: pseudo keyframe labels derived from LMMs that provide informative supervision and a coverage regularization that promotes diverse, complementary evidence across time. Experiments on NExT-QA show that our method significantly improves accuracy, especially for temporal and causal question types, establishing keyframe selection as an effective and learnable module for VideoQA.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は近年,ビデオ質問応答 (VideoQA) において顕著な性能を示したが,高い推論コストと希釈情報のため,ビデオの推論は依然として困難である。
キーフレームの選択は効率性とよりシャープな推論を提供するが、画像とテキストの類似性のみに依存する場合、監督や冗長なフレーム選択に悩まされる。
情報的監視を提供するLMMから派生した擬似キーフレームラベルと,多種多様な補完的証拠を促進するカバーレギュラー化の2つのコンポーネントからなる問合せ対応キーフレーム選択フレームワークを提案する。
NExT-QAを用いた実験では,特に時間的および因果的質問タイプにおいて,キーフレームの選択をビデオQAの有効かつ学習可能なモジュールとして確立し,精度を大幅に向上することが示された。
関連論文リスト
- FOCUS: Efficient Keyframe Selection for Long Video Understanding [26.44459739499484]
マルチモーダル大言語モデル(LMLM)は画像とビデオフレームを視覚トークンとして表現する。
FOCUS(Frame-Optimistic Confidence Upbound Selection)は、厳格なトークン予算の下でフレームを選択するモデルに依存しない選択モジュールである。
20分以上のビデオでは、LongVideoBenchingベンチマークで11.9%の精度向上を達成した。
論文 参考訳(メタデータ) (2025-10-31T08:41:13Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - M-LLM Based Video Frame Selection for Efficient Video Understanding [60.93714759178143]
本稿では,ユーザのクエリに関連性の高いフレームを適応的に選択する,軽量なM-LLMベースのフレーム選択手法を提案する。
選択されたフレームは、視覚的推論と質問応答のための凍った下流ビデオM-LLMによって消化される。
論文 参考訳(メタデータ) (2025-02-27T01:44:13Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T14:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。