論文の概要: Progressive Video Condensation with MLLM Agent for Long-form Video Understanding
- arxiv url: http://arxiv.org/abs/2604.02891v1
- Date: Fri, 03 Apr 2026 09:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.419523
- Title: Progressive Video Condensation with MLLM Agent for Long-form Video Understanding
- Title(参考訳): 長期映像理解のためのMLLMエージェントによるプログレッシブビデオ凝縮
- Authors: Yufei Yin, Yuchen Xing, Qianke Meng, Minghao Chen, Yan Yang, Zhou Yu,
- Abstract要約: 本稿では,プログレッシブ・ビデオ・コンデンセーション・エージェントであるProVCAを提案する。
ProVCAの現状は、Egoで69.3%、NExTQAで80.5%、IntentQAで77.7%である。
- 参考スコア(独自算出の注目度): 22.571711953808045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding long videos requires extracting query-relevant information from long sequences under tight compute budgets. Existing text-then-LLM pipelines lose fine-grained visual cues, while video-based multimodal large language models (MLLMs) can keep visual details but are too frame-hungry and computationally expensive. In this work, we aim to harness MLLMs for efficient video understanding. We propose ProVCA, a progressive video condensation agent that iteratively locates key video frames at multiple granularities. ProVCA first adopts a segment localization module to identify the video segment relevant to the query, then a snippet selection module to select important snippets based on similarity, and finally a keyframe refinement module to pinpoint specific keyframes in those snippets. By progressively narrowing the scope from coarse segments to fine frames, ProVCA identifies a small set of keyframes for MLLM-based reasoning. ProVCA achieves state-of-the-art zero-shot accuracies of 69.3\% on EgoSchema, 80.5\% on NExT-QA, and 77.7\% on IntentQA, while using fewer frames than previous training-free methods.
- Abstract(参考訳): 長いビデオを理解するには、厳密な計算予算の下で長いシーケンスからクエリ関連情報を抽出する必要がある。
既存のテキスト-then-LLMパイプラインはきめ細かな視覚的手がかりを失い、ビデオベースのマルチモーダル大言語モデル(MLLM)は視覚的詳細を保持することができるが、フレームハングリーで計算コストがかかりすぎる。
本研究では,MLLMを効率的な映像理解に活用することを目的としている。
本稿では,プログレッシブ・ビデオ・コンデンセーション・エージェントであるProVCAを提案する。
ProVCAはまずセグメントローカライゼーションモジュールを採用してクエリに関連するビデオセグメントを特定し、次にスニペット選択モジュールを使用して類似性に基づいて重要なスニペットを選択する。
ProVCAは、範囲を粗いセグメントから細かなフレームに徐々に狭めることで、MLLMベースの推論のためのキーフレームの小さなセットを特定する。
ProVCAは、EgoSchemaで69.3\%、NExT-QAで80.5\%、IntentQAで77.7\%という最先端のゼロショット精度を実現し、従来のトレーニングフリーメソッドよりも少ないフレームを使用する。
関連論文リスト
- FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering [0.6107667071306521]
長時間のエゴセントリックなビデオに対する質問応答のためのフレームワークであるFocusGraphを開発した。
我々は軽量なトレーニング可能なScene-Caption LLMセレクタを使用し、グラフベースのキャプションに基づいてクエリ関連クリップを選択する。
次に、トレーニング不要なPatch-wise Sparse-Flow Retention (PSFR) 法を設計し、その結果のクリップ列からテキストを選択する。
論文 参考訳(メタデータ) (2026-03-04T18:14:00Z) - Event-Anchored Frame Selection for Effective Long-Video Understanding [67.56884568828508]
Event-Anchored Frame Selection (EFS)は階層的なイベント認識パイプラインである。
トレーニング不要のプラグイン・アンド・プレイモジュールとして、EFSは既製のLVLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2026-03-01T08:25:37Z) - VideoBrain: Learning Adaptive Frame Sampling for Long Video Understanding [9.415923244280542]
VideoBrainは、Vision-Language Modelsが学習したサンプリングポリシーを通じて視覚情報を適応的に取得することを可能にするエンドツーエンドフレームワークである。
提案手法は,ビデオ間の意味検索を行うCLIPエージェントと,時間間隔内での高密度サンプリングを行うUniformエージェントの2つの補完エージェントを特徴とする。
論文 参考訳(メタデータ) (2026-02-04T00:08:35Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - VidCtx: Context-aware Video Question Answering with Image Models [15.1350316858766]
VidCtxは、入力フレームからの視覚情報と他のフレームのテキスト記述の両方を統合する、新しいトレーニング不要なビデオQAフレームワークである。
実験により、VidCtxはオープンモデルに依存するアプローチ間の競争性能を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T09:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。