論文の概要: Shot-Aware Frame Sampling for Video Understanding
- arxiv url: http://arxiv.org/abs/2603.17374v1
- Date: Wed, 18 Mar 2026 05:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.523589
- Title: Shot-Aware Frame Sampling for Video Understanding
- Title(参考訳): 映像理解のためのショットアウェアフレームサンプリング
- Authors: Mengyu Zhao, Di Fu, Yongyu Xie, Jiaxing Zhang, Zhigang Yuan, Shirin Jalali, Yong Cao,
- Abstract要約: InfoShotは、長時間ビデオ理解のためのタスクに依存しない、ショット対応のフレームサンプリングツールである。
設計は、サンプルセットがショット構造とスパース内偏差の両方について高い情報を保持することを奨励する情報理論の目的によって導かれる。
実験の結果,InfoShotはフレーム数制約下での異常ヒット率とダウンストリームビデオQA精度を改善することがわかった。
- 参考スコア(独自算出の注目度): 10.771430339569795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video frame sampling is essential for efficient long-video understanding with Vision-Language Models (VLMs), since dense inputs are costly and often exceed context limits. Yet when only a small number of frames can be retained, existing samplers often fail to balance broad video coverage with brief but critical events, which can lead to unreliable downstream predictions. To address this issue, we present InfoShot, a task-agnostic, shot-aware frame sampler for long-video understanding. InfoShot first partitions a video into semantically consistent shots, and then selects two complementary keyframes from each shot: one to represent the main content and one to capture unusual within-shot changes. This design is guided by an information-theoretic objective that encourages the sampled set to retain high information about both shot structure and sparse within-shot deviations. In this way, it improves the chance of preserving both overall video context and short decision-critical moments without requiring any retraining. To better evaluate such short-lived events, we further introduce SynFlash, a synthetic benchmark with controllable sub-second anomaly patterns and frame-level ground truth, and we also evaluate InfoShot on existing anomaly datasets and general video understanding tasks. Experiments show that InfoShot improves anomaly hit rate and downstream Video-QA accuracy under frame number constraints, while matching or outperforming strong baselines on standard video understanding benchmarks.
- Abstract(参考訳): VLM(Vision-Language Models)を用いたビデオフレームサンプリングは,高精細な入力がコストが高く,文脈制限を超えることが多いため,効率的な長時間ビデオ理解に不可欠である。
しかし、少数のフレームしか保持できない場合、既存のサンプルは、広範のビデオカバレッジと短いが重要なイベントとのバランスが取れず、信頼性の低い下流予測に繋がる可能性がある。
この問題に対処するために、長時間ビデオ理解のためのタスクに依存しないショット対応フレームサンプリングであるInfoShotを提案する。
InfoShotはまず、ビデオをセマンティックに一貫性のあるショットに分割し、各ショットから2つの補完的なキーフレームを選択する。
この設計は、サンプルセットがショット構造とスパース内偏差の両方について高い情報を保持することを奨励する情報理論の目的によって導かれる。
このようにして、再トレーニングを必要とせず、ビデオのコンテキスト全体と短い決定クリティカルな瞬間の両方を保存する機会を向上する。
このような短命なイベントをよりよく評価するために、制御可能なサブ秒の異常パターンとフレームレベル基底真理を持つ合成ベンチマークであるSynFlashを導入し、既存の異常データセットや一般的なビデオ理解タスク上でInfoShotを評価する。
実験により、InfoShotはフレーム数制約下での異常ヒット率とダウンストリームビデオQAの精度を向上し、標準のビデオ理解ベンチマークで強力なベースラインをマッチングまたは上回ることを示した。
関連論文リスト
- UniE2F: A Unified Diffusion Framework for Event-to-Frame Reconstruction with Video Foundation Models [67.24086328473437]
イベントカメラは絶対強度よりも相対強度の変化を記録できる。
結果として得られたデータストリームは、空間情報と静的テクスチャの詳細が著しく失われることに悩まされる。
本稿では、事前学習したビデオ拡散モデルを用いて、スパースイベントデータから高忠実度ビデオフレームを再構成することで、この制限に対処する。
論文 参考訳(メタデータ) (2026-02-22T14:06:49Z) - Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models [76.7535001311919]
State-of-the-the-art Text-to-Video (T2V)拡散モデルは視覚的に印象的な結果を生成することができるが、複雑なシーンを作成したり、論理的時間的指示に従うのに失敗することが多い。
テキスト・ツー・ビデオ・ジェネレーションを3つの特殊ステージに分解することでこれらのタスクを分離するパイプラインであるFVGを紹介した。
提案手法は,T2V CompBench ベンチマークに新たな最先端技術を導入し,VBench2 上でのテストモデルすべてを大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T10:10:45Z) - DUAL-VAD: Dual Benchmarks and Anomaly-Focused Sampling for Video Anomaly Detection [8.294763803639391]
ビデオ異常検出(VAD)は、監視と公衆の安全のために重要である。
既存のベンチマークはフレームレベルかビデオレベルのタスクに限られている。
本研究は、フルビデオカバレッジを維持しながら、異常度セグメントを優先するソフトマックスベースのフレーム割り当て戦略を導入する。
論文 参考訳(メタデータ) (2025-09-15T05:48:22Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - CMTA: Cross-Modal Temporal Alignment for Event-guided Video Deblurring [44.30048301161034]
ビデオデブロアリングは、隣接するビデオフレームから情報を集めることで、モーションレッドビデオの復元結果の品質を高めることを目的としている。
1) フレーム内機能拡張は, 単一のぼやけたフレームの露出時間内で動作し, 2) フレーム間時間的特徴アライメントは, 重要な長期時間情報を対象のフレームに収集する。
提案手法は, 合成および実世界のデブロアリングデータセットを用いた広範囲な実験により, 最先端のフレームベースおよびイベントベース動作デブロアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-27T10:09:17Z) - SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-04T06:41:33Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。