論文の概要: Think-Clip-Sample: Slow-Fast Frame Selection for Video Understanding
- arxiv url: http://arxiv.org/abs/2601.11359v1
- Date: Fri, 16 Jan 2026 15:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.533896
- Title: Think-Clip-Sample: Slow-Fast Frame Selection for Video Understanding
- Title(参考訳): Think-Clip-Sample: ビデオ理解のためのスローファストフレーム選択
- Authors: Wenhui Tan, Ruihua Song, Jiaze Li, Jianzhong Ju, Zhenbo Luo,
- Abstract要約: Think-Clip-Sample(TCS)はトレーニング不要のフレームワークで、2つの重要なコンポーネントによる長いビデオ理解を強化する。
MLVU、LongVideoBench、VideoMMEの大規模な実験により、TCSは異なるMLLM間のパフォーマンスを一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 18.742640666790827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in multi-modal large language models (MLLMs) has significantly advanced video understanding. However, their performance on long-form videos remains limited by computational constraints and suboptimal frame selection. We present Think-Clip-Sample (TCS), a training-free framework that enhances long video understanding through two key components: (i) Multi-Query Reasoning, which generates multiple queries to capture complementary aspects of the question and video; and (ii) Clip-level Slow-Fast Sampling, which adaptively balances dense local details and sparse global context. Extensive experiments on MLVU, LongVideoBench, and VideoMME demonstrate that TCS consistently improves performance across different MLLMs, boosting up to 6.9% accuracy, and is capable of achieving comparable accuracy with 50% fewer inference time cost, highlighting both efficiency and efficacy of TCS on long video understanding.
- Abstract(参考訳): MLLM(Multi-modal large language model)の最近の進歩は、ビデオ理解が著しく進歩している。
しかし、長大なビデオにおけるそれらの性能は、計算制約やフレーム選択によって制限されている。
トレーニング不要なフレームワークであるThink-Clip-Sample(TCS)について述べる。
一 質問及びビデオの相補的な側面を捉えるために複数のクエリを生成するマルチクエリ推論
(II)密集した局所的詳細と疎グローバルな文脈を適応的にバランスさせるクリップレベルのスローファストサンプリング。
MLVU(英語版)、LongVideoBench(英語版)、VideoMME(英語版)の広範囲にわたる実験により、TCSは様々なMLLMのパフォーマンスを一貫して改善し、6.9%の精度を向上し、推論時間コストを50%削減して同等の精度を達成でき、長いビデオ理解におけるTCSの有効性と有効性を強調している。
関連論文リスト
- Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。
OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。
また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2025-12-09T09:40:20Z) - TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [25.675553077419274]
MLLM(Multimodal Language Models)は、視覚タスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間サンプリングポリシー最適化(TSPO)を提案する。
我々のTSPOは、複数の長いビデオ理解ベンチマークにまたがって最先端のビデオMLLM間での転送能力を示す。
論文 参考訳(メタデータ) (2025-08-06T12:03:36Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。