論文の概要: MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2602.22932v1
- Date: Thu, 26 Feb 2026 12:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.677432
- Title: MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
- Title(参考訳): MSJoE: MLLMとサンプリングを併用した長期ビデオ理解
- Authors: Wenhui Tan, Xiaoyi Yu, Jiaze Li, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Ruihua Song, Jian Luan,
- Abstract要約: MLLM-Sampler Joint Evolution (MSJoE) を用いて, 映像理解の効率化を図る。
MSJoEは、キーフレームの小さなサブセットだけが、ビデオに各質問に答える上で真に有益である、というキー前提の上に構築されている。
トレーニングプロセスをサポートするために、7K問合せペアの2.8Kビデオを含む新しい長ビデオQAデータセットを収集する。
- 参考スコア(独自算出の注目度): 25.20420111814606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently understanding long-form videos remains a fundamental challenge for multimodal large language models (MLLMs). In this paper, we present MLLM-Sampler Joint Evolution (MSJoE), a novel framework that jointly evolves the MLLM and a lightweight key-frame sampler for efficient long-form video understanding. MSJoE builds upon a key assumption that only a small subset of key-frames is truly informative for answering each question to a video. Specifically, MSJoE first reasons out several queries, which describe diverse visual perspectives relevant to the question. Then, these queries interact with a frozen CLIP model to produce a query-frame similarity matrix. Finally, a lightweight sampler predicts key-frame sampling weights from this matrix, selecting a compact set of informative frames, which are then fed into the MLLM for answer generation. Both the MLLM and sampler are jointly optimized through reinforcement learning, enabling co-adaptation of query-reasoning, frame-sampling, and key-frame understanding. A new long-video QA dataset containing 2.8K videos with 7K question-answer pairs is collected to support the training process. Extensive experiments on VideoMME, LongVideoBench, LVBench, and MLVU show that MSJoE achieves 8.0\% accuracy gain upon the base MLLM, and 1.1\% higher accuracy than strongest baseline method.
- Abstract(参考訳): 長尺ビデオの効率的な理解は、マルチモーダル大言語モデル(MLLM)の基本的な課題である。
本稿では,MLLM-Sampler Joint Evolution (MSJoE)について述べる。
MSJoEは、キーフレームの小さなサブセットだけが、ビデオに各質問に答える上で真に有益である、というキー前提の上に構築されている。
特に、MSJoEはまず、質問に関連する様々な視覚的視点を記述したいくつかのクエリを理由付けている。
次に、これらのクエリは凍結したCLIPモデルと相互作用し、クエリフレームの類似性行列を生成する。
最後に、軽量サンプリング器は、この行列からキーフレームサンプリング重量を予測し、情報フレームのコンパクトなセットを選択し、回答生成のためにMLLMに入力する。
MLLMとサンプルラは、強化学習によって共同で最適化され、クエリ推論、フレームサンプリング、キーフレーム理解の共適応を可能にする。
トレーニングプロセスをサポートするために、7K問合せペアの2.8Kビデオを含む新しい長ビデオQAデータセットを収集する。
ビデオMME,LongVideoBench,LVBench,MLVUの大規模な実験により,MSJoEはベースMLLMにおいて8.0\%,最強ベースライン法では1.1\%の精度向上を達成した。
関連論文リスト
- Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
長文理解は,ビデオデータの冗長度が高く,クエリ非関連情報の豊富さによって複雑になる。
我々は,LLM推論のためのクエリ適応的かつ階層的なビデオ表現を構築する,トレーニング不要なフレームワークであるVideoTreeを提案する。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z) - Elysium: Exploring Object-level Perception in Videos via MLLM [11.02937968639935]
本稿では,ビデオにおけるオブジェクトレベルのタスクを,追加のプラグインやエキスパートモデルを必要としないエンドツーエンドのトレーニング可能なMLLMを提案する。
Elysium: MLLMを通じてビデオのオブジェクトレベルの知覚を探索する MLLMは、追加のプラグインやエキスパートモデルを必要としない、ビデオ内でオブジェクトレベルのタスクを実行しようとするエンドツーエンドのトレーニング可能なMLLMです。
論文 参考訳(メタデータ) (2024-03-25T09:17:15Z) - DreamFrame: Enhancing Video Understanding via Automatically Generated QA and Style-Consistent Keyframes [11.2645921649719]
最近の視覚言語モデル(LVLM)は、主にオンラインプラットフォームから抽出された様々なスクレイピングによって微調整されている。
現在のLVLMは主に、広範囲で汎用的な設定で既存のデータセットでトレーニングされているが、特定のダウンストリームシナリオに適応することは依然として難しい。
そこで我々はDreamFrameという3段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。