論文の概要: VideoBrain: Learning Adaptive Frame Sampling for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2602.04094v1
- Date: Wed, 04 Feb 2026 00:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.317279
- Title: VideoBrain: Learning Adaptive Frame Sampling for Long Video Understanding
- Title(参考訳): VideoBrain: 長いビデオ理解のための適応フレームサンプリング学習
- Authors: Junbo Zou, Ziheng Huang, Shengjie Zhang, Liwen Zhang, Weining Shen,
- Abstract要約: VideoBrainは、Vision-Language Modelsが学習したサンプリングポリシーを通じて視覚情報を適応的に取得することを可能にするエンドツーエンドフレームワークである。
提案手法は,ビデオ間の意味検索を行うCLIPエージェントと,時間間隔内での高密度サンプリングを行うUniformエージェントの2つの補完エージェントを特徴とする。
- 参考スコア(独自算出の注目度): 9.415923244280542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video understanding remains challenging for Vision-Language Models (VLMs) due to the inherent tension between computational constraints and the need to capture information distributed across thousands of frames. Existing approaches either sample frames uniformly (risking information loss) or select keyframes in a single pass (with no recovery from poor choices). We propose VideoBrain, an end-to-end framework that enables VLMs to adaptively acquire visual information through learned sampling policies. Our approach features dual complementary agents: a CLIP-based agent for semantic retrieval across the video and a Uniform agent for dense temporal sampling within intervals. Unlike prior agent-based methods that rely on text-only LLMs orchestrating visual tools, our VLM directly perceives frames and reasons about information sufficiency. To prevent models from invoking agents indiscriminately to maximize rewards, we introduce a behavior-aware reward function coupled with a data classification pipeline that teaches the model when agent invocation is genuinely beneficial. Experiments on four long video benchmarks demonstrate that VideoBrain achieves +3.5% to +9.0% improvement over the baseline while using 30-40% fewer frames, with strong cross-dataset generalization to short video benchmarks.
- Abstract(参考訳): VLM(Vision-Language Models)では、計算制約と数千のフレームに分散した情報をキャプチャする必要があるため、長いビデオ理解は依然として困難である。
既存のアプローチでは、サンプルフレームを均一に(情報損失を生じさせる)、または1回のパスでキーフレームを選択する(選択が貧弱な状態から回復することはない)。
本稿では,VLMが学習したサンプリングポリシを通じて視覚情報を適応的に取得することを可能にする,エンドツーエンドのフレームワークであるVideoBrainを提案する。
提案手法は,ビデオ間の意味検索を行うCLIPエージェントと,時間間隔内での高密度サンプリングを行うUniformエージェントの2つの補完エージェントを特徴とする。
視覚ツールを編成するテキストのみのLLMに依存する従来のエージェントベースの手法とは異なり、VLMは直接、フレームと情報不足の理由を知覚する。
モデルがエージェントを無差別に呼び出すのを防止し、報酬を最大化するために、エージェントの呼び出しが真に有益である場合にモデルを教えるデータ分類パイプラインと組み合わさった行動認識報酬関数を導入する。
4つの長いビデオベンチマークの実験では、VideoBrainは30-40%少ないフレームを使用しながらベースラインを+3.5%から+9.0%改善し、短いビデオベンチマークに強力なクロスデータセットの一般化を実現している。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Moment Sampling in Video LLMs for Long-Form Video QA [22.638644170177013]
モーメントサンプリング(moment sample)とは、モデルが最も関係のあるフレームを質問の文脈に応じて選択できるモデルに依存しないアプローチである。
与えられた質問に最も関係のあるフレームに焦点をあてることで、ビデオLLMにおける長大なビデオQA性能を向上させることができる。
論文 参考訳(メタデータ) (2025-06-18T03:23:56Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。