論文の概要: From Captions to Keyframes: KeyScore for Multimodal Frame Scoring and Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2510.06509v2
- Date: Fri, 10 Oct 2025 07:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:46.789797
- Title: From Captions to Keyframes: KeyScore for Multimodal Frame Scoring and Video-Language Understanding
- Title(参考訳): キャプションからキーフレームへ:マルチモーダルフレームスコーリングとビデオ言語理解のためのKeyScore
- Authors: Shih-Yao Lin, Sibendu Paul, Caren Chen,
- Abstract要約: KeyScoreは、キャプションと意味的類似性、時間的代表性、文脈的ドロップインパクトを組み合わせたキャプション対応のフレームスコアリング手法である。
提案手法は効率と性能を両立させ,拡張性とキャプションによる映像理解を可能にする。
- 参考スコア(独自算出の注目度): 1.3856027745141806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting informative keyframes is critical for efficient video understanding, yet existing approaches often rely on heuristics, ignore semantics, or produce redundant frames. We propose KeyScore, a caption-aware frame scoring method that combines three complementary signals: semantic similarity to captions, temporal representativeness, and contextual drop impact. Applied to large-scale video-caption datasets, KeyScore generates frame-level importance scores that enable training keyframe extractors or guiding video-language models. To support this, we also propose STACFP, a Spatio-Temporal Adaptive Clustering method that generates diverse and compact frame proposals across long videos. Together, KeyScore and STACFP reduce uninformative frames while preserving critical content, resulting in faster and more accurate inference. Our experiments on three standard video-language benchmarks (MSRVTT, MSVD, DiDeMo) show that combining STACFP and KeyScore enables up to 99% frame reduction compared to full-frame processing, while outperforming uniform 8-frame encoders in video-text retrieval, keyframe extraction, and action recognition tasks. By focusing on semantically relevant frames, our method enhances both efficiency and performance, enabling scalable and caption-grounded video understanding.
- Abstract(参考訳): 情報的キーフレームの選択は効率的なビデオ理解には不可欠だが、既存のアプローチはヒューリスティックスに依存したり、セマンティクスを無視したり、冗長なフレームを生成する。
意味的類似性,時間的代表性,文脈的落下影響の3つの相補的な信号を組み合わせた,キャプション対応フレームスコア法であるKeyScoreを提案する。
大規模なビデオキャプチャデータセットに適用すると、KeyScoreは、キーフレーム抽出のトレーニングやビデオ言語モデルの指導を可能にする、フレームレベルの重要度スコアを生成する。
これをサポートするために,長いビデオにまたがる多種多様かつコンパクトなフレーム提案を生成する,時空間適応クラスタリング手法であるSTACFPを提案する。
KeyScoreとSTACFPは共に、重要なコンテンツを保存しながら非形式的なフレームを減らし、より高速で正確な推論を行う。
STACFPとKeyScoreを組み合わせた3つの標準ビデオ言語ベンチマーク(MSRVTT,MSVD,DiDeMo)実験により,ビデオテキスト検索,キーフレーム抽出,アクション認識タスクにおいて,一様8フレームエンコーダの性能が向上する一方,STACFPとKeyScoreを組み合わせることで,フルフレーム処理に比べて最大99%のフレーム削減が可能となった。
セマンティックなフレームに焦点をあてることで、効率と性能を両立させ、スケーラブルでキャプション付き映像理解を可能にする。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs [13.306662159600677]
適応型フレーム選択とマルチテンポラリスケーリングのための新しいアプローチであるビデオQFrameを紹介する。
Q-Frameは、CLIPのようなテキスト画像マッチングネットワークによって生成されたトレーニング不要のプラグイン・アンド・プレイ戦略を採用している。
ベンチマークデータセットの広範な実験を通じて,Q-Frameの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-27T11:30:51Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。