論文の概要: From Captions to Keyframes: Efficient Video Summarization via Caption- and Context-Aware Frame Scoring
- arxiv url: http://arxiv.org/abs/2510.06509v1
- Date: Tue, 07 Oct 2025 23:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.223641
- Title: From Captions to Keyframes: Efficient Video Summarization via Caption- and Context-Aware Frame Scoring
- Title(参考訳): キャプションからキーフレーム: キャプションとコンテキスト認識フレームスコーリングによる効率的なビデオ要約
- Authors: Shih-Yao Lin, Sibendu Paul, Caren Chen,
- Abstract要約: 効率的なビデオ言語理解には、長いビデオからの意味的情報と文脈的情報を保持する小さなフレームを選択する必要がある。
フレームレベルの重要度を推定するために,字幕と視覚的コンテキストを併用したマルチモーダルフレームスコアフレームワークであるKeyScoreを提案する。
この結果から,視覚信号とテキスト信号のマルチモーダルアライメントを強調することで,スケーラブル,効率的,キャプション付き映像理解が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 1.3856027745141806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient video-language understanding requires selecting a small set of frames that retain semantic and contextual information from long videos. We propose KeyScore, a multimodal frame scoring framework that jointly leverages captions and visual context to estimate frame-level importance. By combining semantic similarity, temporal diversity, and contextual drop impact, KeyScore identifies the most informative frames for downstream tasks such as retrieval, captioning, and video-language reasoning. To complement KeyScore, we introduce STACFP (Spatio-Temporal Adaptive Clustering for Frame Proposals), which generates compact and diverse frame candidates for long-form videos. Together, these modules achieve up to 99\% frame reduction compared to full-frame inference and substantially outperform standard 8-frame encoders on MSRVTT, MSVD, and DiDeMo. Our results demonstrate that emphasizing multimodal alignment between visual and textual signals enables scalable, efficient, and caption-grounded video understanding -- without explicit video summarization.
- Abstract(参考訳): 効率的なビデオ言語理解には、長いビデオからの意味的情報と文脈的情報を保持する小さなフレームを選択する必要がある。
フレームレベルの重要度を推定するために,字幕と視覚的コンテキストを併用したマルチモーダルフレームスコアフレームワークであるKeyScoreを提案する。
セマンティックな類似性、時間的多様性、文脈的なドロップの影響を組み合わせることで、KeyScoreは、検索、キャプション、ビデオ言語推論といった下流タスクに最も有用なフレームを特定する。
KeyScoreを補完するため,STACFP(Spatio-Temporal Adaptive Clustering for Frame Proposals)を導入する。
これらのモジュールは、フルフレームの推論と比較して最大99\%のフレーム削減を実現し、MSRVTT、MSVD、DiDeMoの標準8フレームエンコーダを大幅に上回っている。
この結果から,視覚信号とテキスト信号のマルチモーダルアライメントを強調することで,ビデオの明示的な要約を伴わずに,スケーラブルで,効率的で,キャプション付き映像理解が可能になることが示唆された。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs [13.306662159600677]
適応型フレーム選択とマルチテンポラリスケーリングのための新しいアプローチであるビデオQFrameを紹介する。
Q-Frameは、CLIPのようなテキスト画像マッチングネットワークによって生成されたトレーニング不要のプラグイン・アンド・プレイ戦略を採用している。
ベンチマークデータセットの広範な実験を通じて,Q-Frameの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-27T11:30:51Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。