論文の概要: Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders
- arxiv url: http://arxiv.org/abs/2505.24158v1
- Date: Fri, 30 May 2025 03:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.741212
- Title: Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders
- Title(参考訳): ナラティブによるスレッド化キーフレーム - 長大なビデオコンストラクタとしてのMLLM
- Authors: Bo Fang, Wenhao Wu, Qiangqiang Wu, Yuxin Song, Antoni B. Chan,
- Abstract要約: 長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
- 参考スコア(独自算出の注目度): 62.58375366359421
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Employing Multimodal Large Language Models (MLLMs) for long video understanding remains a challenging problem due to the dilemma between the substantial number of video frames (i.e., visual tokens) versus the limited context length of language models. Traditional uniform sampling often leads to selection of irrelevant content, while post-training MLLMs on thousands of frames imposes a substantial computational burden. In this paper, we propose threading keyframes with narratives (Nar-KFC), a plug-and-play module to facilitate effective and efficient long video perception. Nar-KFC generally involves two collaborative steps. First, we formulate the keyframe selection process as an integer quadratic programming problem, jointly optimizing query-relevance and frame-diversity. To avoid its computational complexity, a customized greedy search strategy is designed as an efficient alternative. Second, to mitigate the temporal discontinuity caused by sparse keyframe sampling, we further introduce interleaved textual narratives generated from non-keyframes using off-the-shelf captioners. These narratives are inserted between keyframes based on their true temporal order, forming a coherent and compact representation. Nar-KFC thus serves as a temporal- and content-aware compression strategy that complements visual and textual modalities. Experimental results on multiple long-video benchmarks demonstrate that Nar-KFC significantly improves the performance of popular MLLMs. Code will be made publicly available.
- Abstract(参考訳): 長いビデオ理解のためにMLLM(Multimodal Large Language Models)を用いることは、かなりの数のビデオフレーム(視覚トークン)と限られた文脈長とのジレンマのため、依然として難しい問題である。
伝統的な一様サンプリングは、しばしば無関係な内容の選択につながるが、数千フレームのMLLMを後トレーニングすると、かなりの計算負荷がかかる。
本稿では,より効果的かつ効率的な長大映像認識を支援するプラグイン・アンド・プレイ・モジュールである物語付きスレッド・キーフレーム(Nar-KFC)を提案する。
通常、Nar-KFCは2つの共同作業を行う。
まず、鍵フレーム選択過程を整数2次プログラミング問題として定式化し、クエリ関連性とフレーム多様性を協調的に最適化する。
計算の複雑さを避けるために、最適化された欲求検索戦略が効率的な代替手段として設計されている。
第2に,スパースキーフレームサンプリングによる時間的不連続性を軽減するために,オフザシェルフキャプタを用いた非キーフレームから発生するインターリーブテキスト物語を導入する。
これらの物語は、真の時間順に基づいてキーフレームの間に挿入され、一貫性とコンパクトな表現を形成する。
このようにNar-KFCは、視覚的・テキスト的モダリティを補完する時間的・コンテンツ対応圧縮戦略として機能する。
複数の長ビデオベンチマークによる実験結果から,Nar-KFCはMLLMの性能を大幅に向上することが示された。
コードは公開されます。
関連論文リスト
- ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。
MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - VidCtx: Context-aware Video Question Answering with Image Models [15.1350316858766]
VidCtxは、入力フレームからの視覚情報と他のフレームのテキスト記述の両方を統合する、新しいトレーニング不要なビデオQAフレームワークである。
実験により、VidCtxはオープンモデルに依存するアプローチ間の競争性能を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T09:26:38Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - CSTA: CNN-based Spatiotemporal Attention for Video Summarization [0.24578723416255752]
本稿では,CNN をベースとした SpatioTemporal Attention (CSTA) 手法を提案する。
提案手法は,CNNによるフレーム内およびフレーム内関係の理解と,画像内の絶対位置を学習する能力を活用して,映像中の重要な属性を見つけることに依存する。
論文 参考訳(メタデータ) (2024-05-20T09:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。