論文の概要: Think-Clip-Sample: Slow-Fast Frame Selection for Video Understanding
- arxiv url: http://arxiv.org/abs/2601.11359v1
- Date: Fri, 16 Jan 2026 15:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.533896
- Title: Think-Clip-Sample: Slow-Fast Frame Selection for Video Understanding
- Title(参考訳): Think-Clip-Sample: ビデオ理解のためのスローファストフレーム選択
- Authors: Wenhui Tan, Ruihua Song, Jiaze Li, Jianzhong Ju, Zhenbo Luo,
- Abstract要約: Think-Clip-Sample(TCS)はトレーニング不要のフレームワークで、2つの重要なコンポーネントによる長いビデオ理解を強化する。
MLVU、LongVideoBench、VideoMMEの大規模な実験により、TCSは異なるMLLM間のパフォーマンスを一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 18.742640666790827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in multi-modal large language models (MLLMs) has significantly advanced video understanding. However, their performance on long-form videos remains limited by computational constraints and suboptimal frame selection. We present Think-Clip-Sample (TCS), a training-free framework that enhances long video understanding through two key components: (i) Multi-Query Reasoning, which generates multiple queries to capture complementary aspects of the question and video; and (ii) Clip-level Slow-Fast Sampling, which adaptively balances dense local details and sparse global context. Extensive experiments on MLVU, LongVideoBench, and VideoMME demonstrate that TCS consistently improves performance across different MLLMs, boosting up to 6.9% accuracy, and is capable of achieving comparable accuracy with 50% fewer inference time cost, highlighting both efficiency and efficacy of TCS on long video understanding.
- Abstract(参考訳): MLLM(Multi-modal large language model)の最近の進歩は、ビデオ理解が著しく進歩している。
しかし、長大なビデオにおけるそれらの性能は、計算制約やフレーム選択によって制限されている。
トレーニング不要なフレームワークであるThink-Clip-Sample(TCS)について述べる。
一 質問及びビデオの相補的な側面を捉えるために複数のクエリを生成するマルチクエリ推論
(II)密集した局所的詳細と疎グローバルな文脈を適応的にバランスさせるクリップレベルのスローファストサンプリング。
MLVU(英語版)、LongVideoBench(英語版)、VideoMME(英語版)の広範囲にわたる実験により、TCSは様々なMLLMのパフォーマンスを一貫して改善し、6.9%の精度を向上し、推論時間コストを50%削減して同等の精度を達成でき、長いビデオ理解におけるTCSの有効性と有効性を強調している。
関連論文リスト
- Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。
OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。
また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2025-12-09T09:40:20Z) - FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding [43.82717677801915]
ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:43:01Z) - TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [25.675553077419274]
MLLM(Multimodal Language Models)は、視覚タスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間サンプリングポリシー最適化(TSPO)を提案する。
我々のTSPOは、複数の長いビデオ理解ベンチマークにまたがって最先端のビデオMLLM間での転送能力を示す。
論文 参考訳(メタデータ) (2025-08-06T12:03:36Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。