論文の概要: TiFRe: Text-guided Video Frame Reduction for Efficient Video Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.08861v1
- Date: Mon, 09 Feb 2026 16:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.356503
- Title: TiFRe: Text-guided Video Frame Reduction for Efficient Video Multi-modal Large Language Models
- Title(参考訳): TiFRe: 効率的なビデオマルチモーダル大言語モデルのためのテキスト誘導ビデオフレーム削減
- Authors: Xiangtian Zheng, Zishuo Wang, Yuxin Peng,
- Abstract要約: ビデオ多モード大言語モデル(ビデオMLLM)は高い計算コストに直面している。
本稿では,本質的な映像情報を保持しつつ,入力フレームを削減するフレームワークTiFReを提案する。
実験の結果,TiFReはビデオ言語タスクの性能を改善しつつ,計算コストを効果的に削減できることがわかった。
- 参考スコア(独自算出の注目度): 47.9353380848699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of Large Language Models (LLMs), Video Multi-Modal Large Language Models (Video MLLMs) have achieved remarkable performance in video-language tasks such as video understanding and question answering. However, Video MLLMs face high computational costs, particularly in processing numerous video frames as input, which leads to significant attention computation overhead. A straightforward approach to reduce computational costs is to decrease the number of input video frames. However, simply selecting key frames at a fixed frame rate (FPS) often overlooks valuable information in non-key frames, resulting in notable performance degradation. To address this, we propose Text-guided Video Frame Reduction (TiFRe), a framework that reduces input frames while preserving essential video information. TiFRe uses a Text-guided Frame Sampling (TFS) strategy to select key frames based on user input, which is processed by an LLM to generate a CLIP-style prompt. Pre-trained CLIP encoders calculate the semantic similarity between the prompt and each frame, selecting the most relevant frames as key frames. To preserve video semantics, TiFRe employs a Frame Matching and Merging (FMM) mechanism, which integrates non-key frame information into the selected key frames, minimizing information loss. Experiments show that TiFRe effectively reduces computational costs while improving performance on video-language tasks.
- Abstract(参考訳): LLM(Large Language Models)の急速な発展に伴い、ビデオ多モード大言語モデル(Video Multi-Modal Large Language Models, Video MLLMs)は、ビデオ理解や質問応答といったビデオ言語タスクにおいて顕著なパフォーマンスを達成している。
しかし、ビデオMLLMは、特に多数のビデオフレームを入力として処理する際に高い計算コストに直面しており、大きな注意計算オーバーヘッドをもたらす。
計算コストを削減するための簡単なアプローチは、入力されたビデオフレームの数を減らすことである。
しかし、固定フレームレート(FPS)でキーフレームを選択するだけで、キーフレーム以外の貴重な情報を見落としてしまうことが多く、性能が著しく低下する。
そこで本研究では,本質的な映像情報を保持しつつ,入力フレームを削減できるTiFRe(Text-guided Video Frame Reduction)を提案する。
TiFReは、テキスト誘導フレームサンプリング(TFS)戦略を使用して、ユーザ入力に基づいてキーフレームを選択する。
事前訓練されたCLIPエンコーダは、プロンプトと各フレーム間のセマンティックな類似性を計算し、最も関連性の高いフレームをキーフレームとして選択する。
ビデオセマンティクスを保存するため、TiFReはフレームマッチングとマージ(FMM)機構を採用し、非キーフレーム情報を選択されたキーフレームに統合し、情報損失を最小限にする。
実験の結果,TiFReはビデオ言語タスクの性能を向上しながら,計算コストを効果的に削減できることがわかった。
関連論文リスト
- From Captions to Keyframes: KeyScore for Multimodal Frame Scoring and Video-Language Understanding [1.3856027745141806]
KeyScoreは、キャプションと意味的類似性、時間的代表性、文脈的ドロップインパクトを組み合わせたキャプション対応のフレームスコアリング手法である。
提案手法は効率と性能を両立させ,拡張性とキャプションによる映像理解を可能にする。
論文 参考訳(メタデータ) (2025-10-07T23:02:27Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [24.337139909108117]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding [17.71123451197036]
ビデオデータの複雑さとコンテキスト処理の制限は、長いビデオの理解を妨げる。
本稿では,複数のフレームを単一の表現に統合する新しいフレームワークであるFiLA-Videoを提案する。
FiLA-Videoは、従来の方法に比べて、長時間ビデオ理解において優れた効率と精度を実現している。
論文 参考訳(メタデータ) (2025-04-29T03:09:46Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。