論文の概要: Automatic Detection of Intro and Credits in Video using CLIP and Multihead Attention
- arxiv url: http://arxiv.org/abs/2504.09738v1
- Date: Sun, 13 Apr 2025 22:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:50.005179
- Title: Automatic Detection of Intro and Credits in Video using CLIP and Multihead Attention
- Title(参考訳): CLIPとMultihead Attentionを用いたビデオのイントロとクレジットの自動検出
- Authors: Vasilii Korolkov, Andrey Yanchenko,
- Abstract要約: 本稿では,シーケンス・ツー・シーケンスの分類タスクとして問題を定式化する深層学習に基づく手法を提案する。
提案手法は,フレームを1FPSの固定レートで抽出し,CLIPを用いて符号化し,マルチヘッドアテンションモデルを用いて特徴表現を処理する。
このシステムは91.0%のF1スコア、89.0%の精度、テストセットでの97.0%のリコールを実現し、リアルタイム推論に最適化されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Detecting transitions between intro/credits and main content in videos is a crucial task for content segmentation, indexing, and recommendation systems. Manual annotation of such transitions is labor-intensive and error-prone, while heuristic-based methods often fail to generalize across diverse video styles. In this work, we introduce a deep learning-based approach that formulates the problem as a sequence-to-sequence classification task, where each second of a video is labeled as either "intro" or "film." Our method extracts frames at a fixed rate of 1 FPS, encodes them using CLIP (Contrastive Language-Image Pretraining), and processes the resulting feature representations with a multihead attention model incorporating learned positional encoding. The system achieves an F1-score of 91.0%, Precision of 89.0%, and Recall of 97.0% on the test set, and is optimized for real-time inference, achieving 11.5 FPS on CPU and 107 FPS on high-end GPUs. This approach has practical applications in automated content indexing, highlight detection, and video summarization. Future work will explore multimodal learning, incorporating audio features and subtitles to further enhance detection accuracy.
- Abstract(参考訳): ビデオ内のイントロ/クレジットとメインコンテンツ間の遷移を検出することは、コンテンツセグメンテーション、インデックス化、レコメンデーションシステムにとって重要なタスクである。
このような遷移のマニュアルアノテーションは労働集約的でエラーを起こしやすいが、ヒューリスティックな手法は様々なビデオスタイルをまたいだ一般化に失敗することが多い。
本研究では,ビデオの各秒を「イントロ」あるいは「フィルム」とラベル付けするシーケンス・ツー・シーケンス分類タスクとして問題を定式化する深層学習に基づく手法を提案する。
提案手法は,CLIP(Contrastive Language- Image Pretraining)を用いてフレームを1FPSの固定レートで抽出し,学習位置符号化を取り入れたマルチヘッドアテンションモデルを用いて特徴表現を処理する。
このシステムはテストセットで91.0%のF1スコア、89.0%の精度、97.0%のリコールを実現し、リアルタイム推論に最適化され、CPUで11.5 FPS、ハイエンドGPUで107 FPSを達成する。
このアプローチは、自動コンテンツインデクシング、ハイライト検出、およびビデオ要約に実践的な応用がある。
今後はマルチモーダル学習を探求し、音声機能や字幕を取り入れて検出精度をさらに高めていく予定である。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Differentially Private Video Activity Recognition [79.36113764129092]
ビデオレベルの差分プライバシーをクリップベース分類モデルにより強化する新しいフレームワークであるMulti-Clip DP-SGDを提案する。
提案手法は,UDF-101上でのエプシロン=5のプライバシー予算で81%の精度を達成し,DP-SGDの直接適用に比べて76%改善した。
論文 参考訳(メタデータ) (2023-06-27T18:47:09Z) - Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。
本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文 参考訳(メタデータ) (2023-06-21T15:09:37Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition [25.888314212797436]
本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
論文 参考訳(メタデータ) (2022-07-20T09:04:12Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Self-supervised Video Representation Learning by Context and Motion
Decoupling [45.510042484456854]
自己教師付き映像表現学習における課題は、文脈バイアス以外に効果的な動き情報を捉える方法である。
注意深い前文タスクを通じて,文脈バイアスから動きの監督を明示的に分離する手法を開発した。
実験により,本手法は従来よりも学習ビデオの表現精度の向上を図っている。
論文 参考訳(メタデータ) (2021-04-02T02:47:34Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。