論文の概要: Cross-category Video Highlight Detection via Set-based Learning
- arxiv url: http://arxiv.org/abs/2108.11770v1
- Date: Thu, 26 Aug 2021 13:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:00:22.549051
- Title: Cross-category Video Highlight Detection via Set-based Learning
- Title(参考訳): 集合学習によるカテゴリ間ビデオハイライト検出
- Authors: Minghao Xu, Hang Wang, Bingbing Ni, Riheng Zhu, Zhenbang Sun, Changhu
Wang
- Abstract要約: 本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
- 参考スコア(独自算出の注目度): 55.49267044910344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous highlight detection is crucial for enhancing the efficiency of
video browsing on social media platforms. To attain this goal in a data-driven
way, one may often face the situation where highlight annotations are not
available on the target video category used in practice, while the supervision
on another video category (named as source video category) is achievable. In
such a situation, one can derive an effective highlight detector on target
video category by transferring the highlight knowledge acquired from source
video category to the target one. We call this problem cross-category video
highlight detection, which has been rarely studied in previous works. For
tackling such practical problem, we propose a Dual-Learner-based Video
Highlight Detection (DL-VHD) framework. Under this framework, we first design a
Set-based Learning module (SL-module) to improve the conventional pair-based
learning by assessing the highlight extent of a video segment under a broader
context. Based on such learning manner, we introduce two different learners to
acquire the basic distinction of target category videos and the characteristics
of highlight moments on source video category, respectively. These two types of
highlight knowledge are further consolidated via knowledge distillation.
Extensive experiments on three benchmark datasets demonstrate the superiority
of the proposed SL-module, and the DL-VHD method outperforms five typical
Unsupervised Domain Adaptation (UDA) algorithms on various cross-category
highlight detection tasks. Our code is available at
https://github.com/ChrisAllenMing/Cross_Category_Video_Highlight .
- Abstract(参考訳): ソーシャルメディアプラットフォーム上での動画閲覧の効率を高めるためには、自律ハイライト検出が不可欠である。
データ駆動方式でこの目標を達成するためには、実際に使用される対象ビデオカテゴリではハイライトアノテーションが利用できない場合が多いが、別のビデオカテゴリ(ソースビデオカテゴリと命名される)の監督は達成可能である。
このような状況において、ソースビデオカテゴリから取得したハイライト知識をターゲットに転送することにより、ターゲットビデオカテゴリの効果的なハイライト検出を導出することができる。
我々はこの問題をカテゴリ間ビデオハイライト検出と呼び、これまで研究されてきたことはめったにない。
このような現実的な問題に対処するために,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
本フレームワークでは,より広いコンテキスト下でビデオセグメントのハイライト範囲を評価することにより,従来のペアベース学習を改善するために,まずセットベース学習モジュール(SLモジュール)を設計する。
このような学習方法に基づき,2つの異なる学習者を紹介し,対象カテゴリービデオの基本的な識別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴について述べる。
これら2種類のハイライト知識は、知識蒸留によってさらに統合される。
3つのベンチマークデータセットに対する大規模な実験は、提案したSL-モジュールの優位性を示し、DL-VHD法は、様々なカテゴリのハイライト検出タスクにおいて、5つの典型的なUnsupervised Domain Adaptation (UDA)アルゴリズムより優れている。
私たちのコードはhttps://github.com/ChrisAllenMing/Cross_Category_Video_Highlightで利用可能です。
関連論文リスト
- Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。