論文の概要: Moment Sampling in Video LLMs for Long-Form Video QA
- arxiv url: http://arxiv.org/abs/2507.00033v1
- Date: Wed, 18 Jun 2025 03:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.398654
- Title: Moment Sampling in Video LLMs for Long-Form Video QA
- Title(参考訳): 長時間ビデオQAのためのビデオLLMにおけるモーメントサンプリング
- Authors: Mustafa Chasmai, Gauri Jagatap, Gouthaman KV, Grant Van Horn, Subhransu Maji, Andrea Fanelli,
- Abstract要約: モーメントサンプリング(moment sample)とは、モデルが最も関係のあるフレームを質問の文脈に応じて選択できるモデルに依存しないアプローチである。
与えられた質問に最も関係のあるフレームに焦点をあてることで、ビデオLLMにおける長大なビデオQA性能を向上させることができる。
- 参考スコア(独自算出の注目度): 22.638644170177013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video large language models (Video LLMs) have significantly advanced the field of video question answering (VideoQA). While existing methods perform well on short videos, they often struggle with long-range reasoning in longer videos. To scale Video LLMs for longer video content, frame sub-sampling (selecting frames at regular intervals) is commonly used. However, this approach is suboptimal, often leading to the loss of crucial frames or the inclusion of redundant information from multiple similar frames. Missing key frames impairs the model's ability to answer questions accurately, while redundant frames lead the model to focus on irrelevant video segments and increase computational resource consumption. In this paper, we investigate the use of a general-purpose text-to-video moment retrieval model to guide the frame sampling process. We propose "moment sampling", a novel, model-agnostic approach that enables the model to select the most relevant frames according to the context of the question. Specifically, we employ a lightweight moment retrieval model to prioritize frame selection. By focusing on the frames most pertinent to the given question, our method enhances long-form VideoQA performance in Video LLMs. Through extensive experiments on four long-form VideoQA datasets, using four state-of-the-art Video LLMs, we demonstrate the effectiveness of the proposed approach.
- Abstract(参考訳): ビデオ大言語モデル(ビデオLLM)の最近の進歩は、ビデオ質問応答(ビデオQA)の分野を著しく進歩させてきた。
既存の手法は短いビデオではうまく機能するが、長いビデオでは長距離の推論に苦労することが多い。
長いビデオコンテンツのためにビデオLLMをスケールするためには、フレームサブサンプリング(通常の間隔でフレームを選択する)が一般的である。
しかし、このアプローチは準最適であり、しばしば重要なフレームの喪失や、複数の類似したフレームからの冗長な情報を含むことにつながる。
キーフレームの欠落は、モデルが正確に質問に答える能力を損なう一方、冗長なフレームは、無関係なビデオセグメントに集中し、計算資源消費を増加させる。
本稿では,フレームサンプリングプロセスの指針となる汎用テキスト・ビデオモーメント検索モデルについて検討する。
本稿では,モデルが最も関連性の高いフレームを質問の文脈に応じて選択できる,新しいモデルに依存しない手法である「モーメントサンプリング」を提案する。
具体的には、フレーム選択の優先順位付けに軽量なモーメント検索モデルを用いる。
与えられた質問に最も関係のあるフレームに焦点をあてることで、ビデオLLMにおける長大なビデオQA性能を向上させることができる。
4つの長大なビデオQAデータセットに関する広範な実験を通じて,提案手法の有効性を実証した。
関連論文リスト
- Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs [13.306662159600677]
適応型フレーム選択とマルチテンポラリスケーリングのための新しいアプローチであるビデオQFrameを紹介する。
Q-Frameは、CLIPのようなテキスト画像マッチングネットワークによって生成されたトレーニング不要のプラグイン・アンド・プレイ戦略を採用している。
ベンチマークデータセットの広範な実験を通じて,Q-Frameの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-27T11:30:51Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - M-LLM Based Video Frame Selection for Efficient Video Understanding [60.93714759178143]
本稿では,ユーザのクエリに関連性の高いフレームを適応的に選択する,軽量なM-LLMベースのフレーム選択手法を提案する。
選択されたフレームは、視覚的推論と質問応答のための凍った下流ビデオM-LLMによって消化される。
論文 参考訳(メタデータ) (2025-02-27T01:44:13Z) - Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - VidCtx: Context-aware Video Question Answering with Image Models [15.1350316858766]
VidCtxは、入力フレームからの視覚情報と他のフレームのテキスト記述の両方を統合する、新しいトレーニング不要なビデオQAフレームワークである。
実験により、VidCtxはオープンモデルに依存するアプローチ間の競争性能を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T09:26:38Z) - Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.21221568678641]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
近年の文献では、LVQAベンチマークにおける大きな言語モデルの使用を探求し、例外的な性能を達成している。
論文 参考訳(メタデータ) (2024-06-13T17:59:16Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。