論文の概要: Where to Focus: Query-Modulated Multimodal Keyframe Selection for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2604.17422v1
- Date: Sun, 19 Apr 2026 13:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.518552
- Title: Where to Focus: Query-Modulated Multimodal Keyframe Selection for Long Video Understanding
- Title(参考訳): 焦点:ロングビデオ理解のためのクエリ修飾マルチモーダルキーフレーム選択
- Authors: Shaoguang Wang, Weiyu Guo, Ziyang Chen, Xuming Hu, Hui Xiong,
- Abstract要約: 長いビデオ理解は、マルチモーダルな大規模言語モデルにとって非常に難しい課題です。
Q-Gateは、選択を動的モダリティルーティング問題として扱うプラグイン・アンド・プレイフレームワークである。
- 参考スコア(独自算出の注目度): 48.14432643308697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long video understanding remains a formidable challenge for Multimodal Large Language Models (MLLMs) due to the prohibitive computational cost of processing dense frame sequences. Prevailing solutions, which select a keyframe subset, typically rely on either a single visual-centric metric (e.g., CLIP similarity) or a static fusion of heuristic scores. This ``one-size-fits-all'' paradigm frequently fails: visual-only metrics are ineffective for plot-driven narrative queries, while indiscriminately incorporating textual scores introduces severe ``modal noise'' for purely visual tasks. To break this bottleneck, we propose Q-Gate, a plug-and-play and training-free framework that treats keyframe selection as a dynamic modality routing problem. We decouple the retrieval process into three lightweight expert streams: Visual Grounding for local details, Global Matching for scene semantics, and Contextual Alignment for subtitle-driven narratives. Crucially, Q-Gate introduces a Query-Modulated Gating Mechanism that leverages the in-context reasoning of an LLM to assess the query's intent and dynamically allocate attention weights across the experts. This mechanism intelligently activates necessary modalities while ``muting'' irrelevant ones, thereby maximizing the signal-to-noise ratio. Extensive experiments on LongVideoBench and Video-MME across multiple MLLM backbones demonstrate that Q-Gate substantially outperforms state-of-the-art baselines. By effectively suppressing modality-specific noise, it provides a robust, highly interpretable solution for scalable video reasoning.
- Abstract(参考訳): 長いビデオ理解は、高密度フレーム列を処理するのが違法な計算コストのため、MLLM(Multimodal Large Language Models)にとって深刻な課題である。
キーフレームサブセットを選択する一般的なソリューションは、通常、単一の視覚中心のメトリック(例えば、CLIPの類似性)または静的なヒューリスティックスコアの融合に依存する。
視覚のみのメトリクスは、プロット駆動の物語クエリには効果がないが、テキストスコアを無差別に取り入れると、純粋に視覚的なタスクには厳しい「モーダルノイズ」が発生する。
このボトルネックを解消するために,キーフレーム選択を動的モダリティルーティング問題として扱うプラグイン・アンド・プレイ・トレーニングフリーのフレームワークであるQ-Gateを提案する。
検索プロセスを3つの軽量なエキスパートストリームに分割する: ローカル詳細のためのビジュアルグラウンド、シーンセマンティクスのためのグローバルマッチング、サブタイトル駆動の物語のためのコンテキストアライメント。
重要なことに、Q-Gateはクエリの意図を評価し、専門家間で注意重みを動的に割り当てるために、LLMのコンテキスト内推論を活用するクエリ変調ゲーティングメカニズムを導入している。
このメカニズムは、必要なモダリティをインテリジェントに活性化するが、' `muting' は無関係であり、信号対雑音比を最大化する。
複数のMLLMバックボーンにまたがるLongVideoBenchとVideo-MMEの大規模な実験は、Q-Gateが最先端のベースラインを大幅に上回ることを示した。
モダリティ固有のノイズを効果的に抑制することにより、スケーラブルなビデオ推論のための堅牢で高い解釈可能なソリューションを提供する。
関連論文リスト
- Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining [86.49790441700195]
ClusterSTMは、効率的なビデオ言語事前学習のためのクラスタワイズ時空間マスキング戦略である。
従来の視覚的再構成以上の高レベルなマルチモーダル・セマンティクスを整列するビデオテキスト関連性再構築手法を提案する。
論文 参考訳(メタデータ) (2026-03-24T08:48:15Z) - HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering [13.370338205427911]
長文のビデオ質問応答には、時間的コンテキストの拡張に対する推論が必要である。
類似性ベースのセレクタは高速だが、合成クエリを1つの高密度ベクトルに分解する。
このギャップを埋めるトレーニング不要のフレームワークであるHiMuを紹介します。
論文 参考訳(メタデータ) (2026-03-19T07:11:53Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning [13.569944737211472]
ビデオ理解におけるキーフレーム選択は重要な課題である。
フレームを独立にスコアする従来のトップK選択法は、選択全体を最適化するのに失敗することが多い。
フレーム選択のためのエンドツーエンドのトレーニング可能なタスク適応フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T13:10:30Z) - Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [24.337139909108117]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding [23.022070084937603]
本稿では,視覚意味論理探索のパラダイムの下で選択を再構成する意味論的検索フレームワークを提案する。
提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2025-03-17T13:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。