論文の概要: M-LLM Based Video Frame Selection for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2502.19680v1
- Date: Thu, 27 Feb 2025 01:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:52.615265
- Title: M-LLM Based Video Frame Selection for Efficient Video Understanding
- Title(参考訳): M-LLMを用いた高能率映像理解のためのビデオフレーム選択
- Authors: Kai Hu, Feng Gao, Xiaohan Nie, Peng Zhou, Son Tran, Tal Neiman, Lingyun Wang, Mubarak Shah, Raffay Hamid, Bing Yin, Trishul Chilimbi,
- Abstract要約: 本稿では,ユーザのクエリに関連性の高いフレームを適応的に選択する,軽量なM-LLMベースのフレーム選択手法を提案する。
選択されたフレームは、視覚的推論と質問応答のための凍った下流ビデオM-LLMによって消化される。
- 参考スコア(独自算出の注目度): 60.93714759178143
- License:
- Abstract: Recent advances in Multi-Modal Large Language Models (M-LLMs) show promising results in video reasoning. Popular Multi-Modal Large Language Model (M-LLM) frameworks usually apply naive uniform sampling to reduce the number of video frames that are fed into an M-LLM, particularly for long context videos. However, it could lose crucial context in certain periods of a video, so that the downstream M-LLM may not have sufficient visual information to answer a question. To attack this pain point, we propose a light-weight M-LLM -based frame selection method that adaptively select frames that are more relevant to users' queries. In order to train the proposed frame selector, we introduce two supervision signals (i) Spatial signal, where single frame importance score by prompting a M-LLM; (ii) Temporal signal, in which multiple frames selection by prompting Large Language Model (LLM) using the captions of all frame candidates. The selected frames are then digested by a frozen downstream video M-LLM for visual reasoning and question answering. Empirical results show that the proposed M-LLM video frame selector improves the performances various downstream video Large Language Model (video-LLM) across medium (ActivityNet, NExT-QA) and long (EgoSchema, LongVideoBench) context video question answering benchmarks.
- Abstract(参考訳): M-LLM(Multi-Modal Large Language Models)の最近の進歩は、ビデオ推論における有望な結果を示している。
一般的なM-LLM(Multi-Modal Large Language Model)フレームワークは、特に長いコンテキストビデオにおいて、M-LLMに入力されるビデオフレームの数を減らすために、単純で均一なサンプリングを適用するのが一般的である。
しかし、ビデオの特定の期間において重要なコンテキストを失う可能性があるため、下流のM-LLMは質問に答えるだけの十分な視覚情報を持っていないかもしれない。
この痛点に対処するために,ユーザのクエリに関連性の高いフレームを適応的に選択する軽量なM-LLMフレーム選択法を提案する。
提案するフレームセレクタを訓練するために,2つの監視信号を導入する。
(i)M-LLMのプロンプトにより単一のフレームの重要度がスコアされる空間信号
(2)全てのフレーム候補のキャプションを用いて,Large Language Model (LLM) を誘導して複数のフレームを選択するテンポラル信号。
選択されたフレームは、視覚的推論と質問応答のための凍った下流ビデオM-LLMによって消化される。
実験結果から,提案したM-LLMビデオフレームセレクタは,メディア(ActivityNet, NExT-QA)およびロング(EgoSchema, LongVideoBench)コンテキストビデオ質問応答ベンチマークにおいて,様々なダウンストリームビデオLarge Language Model(ビデオLLM)の性能を改善した。
関連論文リスト
- MAMS: Model-Agnostic Module Selection Framework for Video Captioning [11.442879458679144]
既存のマルチモーダルビデオキャプション手法は、通常、一定数のフレームを抽出する。
本稿では,ビデオキャプションにおける最初のモデルに依存しないモジュール選択フレームワークを提案する。
提案手法は,最近の3つのビデオキャプションモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-01-30T11:10:18Z) - VidCtx: Context-aware Video Question Answering with Image Models [15.1350316858766]
VidCtxは、入力フレームからの視覚情報と他のフレームのテキスト記述の両方を統合する、新しいトレーニング不要なビデオQAフレームワークである。
実験により、VidCtxはオープンモデルに依存するアプローチ間の競争性能を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T09:26:38Z) - Exploring the Design Space of Visual Context Representation in Video MLLMs [102.11582556690388]
ビデオマルチモーダル大言語モデル(MLLM)は、様々な下流タスクでビデオセマンティクスを理解する際、顕著な能力を示した。
ビジュアルコンテキスト表現は、ビデオからフレームを選択し、フレームからトークンを更に選択するスキームを指す。
本稿では,視覚的文脈表現のための設計空間について検討し,より効率的な表現方式を見出すことにより,映像MLLMの性能向上を目指す。
論文 参考訳(メタデータ) (2024-10-17T15:59:52Z) - Frame-Voyager: Learning to Query Frames for Video Large Language Models [33.84793162102087]
ビデオ大言語モデル (Video-LLMs) はビデオ理解タスクにおいて顕著な進歩を遂げている。
フレームの一様サンプリングやテキストフレーム検索のような既存のフレーム選択アプローチでは、ビデオ内の情報密度の変動を考慮できない。
タスクの与えられたテキストクエリに基づいて,情報フレームの組み合わせを問合せする Frame-Voyager を提案する。
論文 参考訳(メタデータ) (2024-10-04T08:26:06Z) - Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:59:55Z) - Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.54207548074378]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
論文 参考訳(メタデータ) (2024-06-13T17:59:16Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval [54.22321767540878]
ビデオモーメント検索(VMR)は、未トリミングビデオのテキストクエリに対応する最も可能性の高いビデオモーメントを見つけることを目的としている。
既存のメソッドのトレーニングは、多様で汎用的なVMRデータセットの欠如によって制限される。
生成的ビデオ拡散を探索するFVEと呼ばれる細粒度ビデオ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。