論文の概要: Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence
- arxiv url: http://arxiv.org/abs/2407.13933v1
- Date: Thu, 18 Jul 2024 23:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 19:13:08.128183
- Title: Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence
- Title(参考訳): 音声と視覚からの学習による教師なし映像のハイライト検出
- Authors: Zahidul Islam, Sujoy Paul, Mrigank Rochan,
- Abstract要約: 手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に重点を置いている。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、各ビデオの擬似ハイライトスコアを計算する。
また、視覚的特徴を用いて、各ビデオの視覚的擬似ハイライトスコアも計算する。
- 参考スコア(独自算出の注目度): 13.2968942989609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the exponential growth of video content, the need for automated video highlight detection to extract key moments or highlights from lengthy videos has become increasingly pressing. This technology has the potential to significantly enhance user experiences by allowing quick access to relevant content across diverse domains. Existing methods typically rely either on expensive manually labeled frame-level annotations, or on a large external dataset of videos for weak supervision through category information. To overcome this, we focus on unsupervised video highlight detection, eliminating the need for manual annotations. We propose an innovative unsupervised approach which capitalizes on the premise that significant moments tend to recur across multiple videos of the similar category in both audio and visual modalities. Surprisingly, audio remains under-explored, especially in unsupervised algorithms, despite its potential to detect key moments. Through a clustering technique, we identify pseudo-categories of videos and compute audio pseudo-highlight scores for each video by measuring the similarities of audio features among audio clips of all the videos within each pseudo-category. Similarly, we also compute visual pseudo-highlight scores for each video using visual features. Subsequently, we combine audio and visual pseudo-highlights to create the audio-visual pseudo ground-truth highlight of each video for training an audio-visual highlight detection network. Extensive experiments and ablation studies on three highlight detection benchmarks showcase the superior performance of our method over prior work.
- Abstract(参考訳): ビデオコンテンツの指数的増加に伴い、キーモーメントや長大なビデオからハイライトを抽出する自動ビデオハイライト検出の必要性が高まっている。
この技術は、多様なドメインにまたがる関連コンテンツへの迅速なアクセスを可能にすることによって、ユーザエクスペリエンスを著しく向上させる可能性がある。
既存の手法は通常、高価な手作業でラベル付けされたフレームレベルのアノテーションや、カテゴリ情報を通じて監督の弱いビデオの大規模な外部データセットに頼っている。
これを解決するために、手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に焦点を当てた。
音声と視覚の両方において、類似のカテゴリの複数のビデオに有意なモーメントが再帰する傾向があることを前提として、革新的な教師なしのアプローチを提案する。
意外なことに、音声は、特に教師なしのアルゴリズムでは、重要な瞬間を検知する可能性にもかかわらず、未発見のままだ。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、擬似カテゴリ内の全ビデオの音声クリップ間のオーディオ特徴の類似度を測定して、各ビデオの擬似ハイライトスコアを計算する。
同様に、視覚的特徴を用いた各ビデオの視覚的擬似ハイライトスコアも計算する。
その後、音声と視覚的擬似ハイライトを組み合わせることで、音声視覚強調検出ネットワークをトレーニングするために、各ビデオの音声視覚擬似地味ハイライトを作成する。
3つのハイライト検出ベンチマークの大規模な実験とアブレーション研究により,本手法の先行研究よりも優れた性能を示した。
関連論文リスト
- Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。
VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。
AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文 参考訳(メタデータ) (2024-12-12T17:59:28Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z) - A gaze driven fast-forward method for first-person videos [2.362412515574206]
我々は、入力ビデオの高速化版を作成し、重要な瞬間をレコーダーに強調することにより、ファースト・パーソン・ビデオにおける関連情報へのアクセスの問題に対処する。
本手法は,映像の各フレームのセマンティックスコアを提供する,視線と視覚的シーン分析によって駆動される注目モデルに基づく。
論文 参考訳(メタデータ) (2020-06-10T00:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。