論文の概要: SlowFocus: Enhancing Fine-grained Temporal Understanding in Video LLM
- arxiv url: http://arxiv.org/abs/2602.03589v1
- Date: Tue, 03 Feb 2026 14:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.516997
- Title: SlowFocus: Enhancing Fine-grained Temporal Understanding in Video LLM
- Title(参考訳): SlowFocus:ビデオLLMにおける微粒な時間的理解の強化
- Authors: Ming Nie, Dan Ding, Chunwei Wang, Yuanfan Guo, Jianhua Han, Hang Xu, Li Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト理解において例外的な能力を示した。
Vid-LLMは高品質なフレームレベルのセマンティック情報を同時に保持するのに苦労する。
この制限は、Vid-LLMの微細なビデオ理解への進歩を妨げる。
- 参考スコア(独自算出の注目度): 36.28285195488772
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional capabilities in text understanding, which has paved the way for their expansion into video LLMs (Vid-LLMs) to analyze video data. However, current Vid-LLMs struggle to simultaneously retain high-quality frame-level semantic information (i.e., a sufficient number of tokens per frame) and comprehensive video-level temporal information (i.e., an adequate number of sampled frames per video). This limitation hinders the advancement of Vid-LLMs towards fine-grained video understanding. To address this issue, we introduce the SlowFocus mechanism, which significantly enhances the equivalent sampling frequency without compromising the quality of frame-level visual tokens. SlowFocus begins by identifying the query-related temporal segment based on the posed question, then performs dense sampling on this segment to extract local high-frequency features. A multi-frequency mixing attention module is further leveraged to aggregate these local high-frequency details with global low-frequency contexts for enhanced temporal comprehension. Additionally, to tailor Vid-LLMs to this innovative mechanism, we introduce a set of training strategies aimed at bolstering both temporal grounding and detailed temporal reasoning capabilities. Furthermore, we establish FineAction-CGR, a benchmark specifically devised to assess the ability of Vid-LLMs to process fine-grained temporal understanding tasks. Comprehensive experiments demonstrate the superiority of our mechanism across both existing public video understanding benchmarks and our proposed FineAction-CGR.
- Abstract(参考訳): 大規模言語モデル(LLM)は、動画データ解析のためのビデオLLM(Vid-LLM)への拡張の道を開いたテキスト理解において、例外的な能力を示している。
しかし、現在のVid-LLMは、高品質なフレームレベルのセマンティック情報(フレーム毎のトークン数)と包括的なビデオレベルの時間情報(ビデオ毎のサンプル数)を同時に保持するのに苦労している。
この制限は、Vid-LLMの微細なビデオ理解への進歩を妨げる。
この問題に対処するために,フレームレベルの視覚トークンの品質を損なうことなく,等価サンプリング周波数を大幅に向上するSlowFocus機構を導入する。
SlowFocusは、提案された質問に基づいてクエリ関連の時間セグメントを特定し、このセグメントで密集したサンプリングを行い、局所的な高周波の特徴を抽出する。
多周波混合アテンションモジュールは、これらの局所的な高周波の詳細をグローバルな低周波コンテキストで集約し、時間的理解を強化する。
さらに、この革新的なメカニズムをVid-LLMに合わせるために、時間的根拠づけと詳細な時間的推論能力の強化を目的とした一連のトレーニング戦略を導入する。
さらに,Vid-LLMsの微粒な時間的理解処理能力を評価するためのベンチマークであるFineAction-CGRを構築した。
包括的実験は、既存の公開ビデオ理解ベンチマークと提案したFineAction-CGRに比較して、我々のメカニズムの優位性を実証する。
関連論文リスト
- Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval [41.81696346270799]
現在の大規模言語モデル(LM)は時間レベルのビデオ理解に苦慮している。
bftextAdaptive textbfPivot MLbfVisual information textbfRetrieval (textbfAPVR)は、十分に重要な視覚情報を階層的に検索し保持する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T12:27:10Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。