論文の概要: Collaborative Noisy Label Cleaner: Learning Scene-aware Trailers for
Multi-modal Highlight Detection in Movies
- arxiv url: http://arxiv.org/abs/2303.14768v1
- Date: Sun, 26 Mar 2023 16:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:42:20.069129
- Title: Collaborative Noisy Label Cleaner: Learning Scene-aware Trailers for
Multi-modal Highlight Detection in Movies
- Title(参考訳): コラボレーティブノイズラベルクリーナー:映画におけるマルチモーダルハイライト検出のための学習シーンアウェアトレーラー
- Authors: Bei Gan, Xiujun Shu, Ruizhi Qiao, Haoqian Wu, Keyu Chen, Hanjun Li, Bo
Ren
- Abstract要約: 我々は、より実用的で有望な設定、すなわち、ハイライト検出を「ノイズラベルによる学習」として再構成することを研究する。
この設定は、時間を要する手動のアノテーションを必要とせず、既存の豊富なビデオコーパスを完全に活用することができる。
MovieLightsとYouTube Highlightsのデータセットに関する総合的な実験は、我々のアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 12.313098016561543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Movie highlights stand out of the screenplay for efficient browsing and play
a crucial role on social media platforms. Based on existing efforts, this work
has two observations: (1) For different annotators, labeling highlight has
uncertainty, which leads to inaccurate and time-consuming annotations. (2)
Besides previous supervised or unsupervised settings, some existing video
corpora can be useful, e.g., trailers, but they are often noisy and incomplete
to cover the full highlights. In this work, we study a more practical and
promising setting, i.e., reformulating highlight detection as "learning with
noisy labels". This setting does not require time-consuming manual annotations
and can fully utilize existing abundant video corpora. First, based on movie
trailers, we leverage scene segmentation to obtain complete shots, which are
regarded as noisy labels. Then, we propose a Collaborative noisy Label Cleaner
(CLC) framework to learn from noisy highlight moments. CLC consists of two
modules: augmented cross-propagation (ACP) and multi-modality cleaning (MMC).
The former aims to exploit the closely related audio-visual signals and fuse
them to learn unified multi-modal representations. The latter aims to achieve
cleaner highlight labels by observing the changes in losses among different
modalities. To verify the effectiveness of CLC, we further collect a
large-scale highlight dataset named MovieLights. Comprehensive experiments on
MovieLights and YouTube Highlights datasets demonstrate the effectiveness of
our approach. Code has been made available at:
https://github.com/TencentYoutuResearch/HighlightDetection-CLC
- Abstract(参考訳): 映画のハイライトは、効率的なブラウジングとソーシャルメディアプラットフォームにおける重要な役割を担っている。
既存の取り組みに基づき、(1)異なるアノテーションに対して、ラベル付けハイライトは不確実性を持ち、不正確で時間のかかるアノテーションをもたらす。
2) 従来の教師なしや教師なしの設定に加えて、例えばトレーラーのような既存のビデオコーパスは有用であるが、フルハイライトをカバーするためにしばしば騒々しく不完全である。
本研究では,より実用的で有望な設定,すなわち強調検出を「雑音ラベルによる学習」として再構成する。
この設定は、時間を要する手動アノテーションを必要とせず、既存の豊富なビデオコーパスを十分に活用することができる。
まず,映画トレーラーをベースとしたシーンセグメンテーションを用いて,ノイズのあるラベルである完全ショットを得る。
そこで我々は,騒音のハイライトモーメントから学習するために,協調雑音のラベルクリーナー(CLC)フレームワークを提案する。
CLCは2つのモジュールから構成される: 拡張クロスプロパゲーション (ACP) とマルチモダリティクリーニング (MMC) である。
前者は、近縁な音声視覚信号を利用して、それらを融合してマルチモーダル表現を学習することを目的としている。
後者は、異なるモダリティ間の損失の変化を観察することで、よりクリーンなハイライトラベルを実現することを目的としている。
CLCの有効性を検証するために,MovieLightsという大規模ハイライトデータセットをさらに収集する。
MovieLightsとYouTube Highlightsのデータセットに関する総合的な実験は、我々のアプローチの有効性を実証している。
コードはhttps://github.com/TencentYoutuResearch/HighlightDetection-CLCで公開されている。
関連論文リスト
- Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence [13.2968942989609]
手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に重点を置いている。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、各ビデオの擬似ハイライトスコアを計算する。
また、視覚的特徴を用いて、各ビデオの視覚的擬似ハイライトスコアも計算する。
論文 参考訳(メタデータ) (2024-07-18T23:09:14Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Label-Efficient Online Continual Object Detection in Streaming Video [26.090873634405895]
既存の連続学習法(CL)では、ビデオストリームでフレームを学習するために完全な注釈付きラベルが必要である。
ストリーミングストリームにおける連続物体検出のためのプラグイン・アンド・プレイモジュールを提案する。
本手法は,実写ビデオの2つのベンチマークにおいて,全監督レベルにおいて有意な改善が得られた。
論文 参考訳(メタデータ) (2022-06-01T08:22:34Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。