論文の概要: Global Prototype Encoding for Incremental Video Highlights Detection
- arxiv url: http://arxiv.org/abs/2209.05166v1
- Date: Mon, 12 Sep 2022 11:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:26:54.069968
- Title: Global Prototype Encoding for Incremental Video Highlights Detection
- Title(参考訳): インクリメンタルビデオハイライト検出のためのグローバルプロトタイプ符号化
- Authors: Sen Pei, Shixiong Xu, Ye Yuan, and Xiaojie Jin
- Abstract要約: そこで,本研究では,ビデオハイライト検出装置を提案し,対応するプロトタイプを用いて,拡張データセットで新たに定義されたビデオハイライトをキャプチャする。
我々は5.1k以上のグルメ動画を含む、EmphByteFoodという注釈付きで費用のかかるデータセットを提示する。
提案したGPEは、emphByteFoodの現在の漸進的学習手法を超越し、少なくとも1.57% mAPの改善を報告している。
- 参考スコア(独自算出の注目度): 10.614883262056406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video highlights detection has been long researched as a topic in computer
vision tasks, digging the user-appealing clips out given unexposed raw video
inputs. However, in most case, the mainstream methods in this line of research
are built on the closed world assumption, where a fixed number of highlight
categories is defined properly in advance and need all training data to be
available at the same time, and as a result, leads to poor scalability with
respect to both the highlight categories and the size of the dataset. To tackle
the problem mentioned above, we propose a video highlights detector that is
able to learn incrementally, namely \textbf{G}lobal \textbf{P}rototype
\textbf{E}ncoding (GPE), capturing newly defined video highlights in the
extended dataset via their corresponding prototypes. Alongside, we present a
well annotated and costly dataset termed \emph{ByteFood}, including more than
5.1k gourmet videos belongs to four different domains which are \emph{cooking},
\emph{eating}, \emph{food material}, and \emph{presentation} respectively. To
the best of our knowledge, this is the first time the incremental learning
settings are introduced to video highlights detection, which in turn relieves
the burden of training video inputs and promotes the scalability of
conventional neural networks in proportion to both the size of the dataset and
the quantity of domains. Moreover, the proposed GPE surpasses current
incremental learning methods on \emph{ByteFood}, reporting an improvement of
1.57\% mAP at least. The code and dataset will be made available sooner.
- Abstract(参考訳): ビデオハイライト検出は、コンピュータビジョンタスクにおけるトピックとして長い間研究されてきた。
しかし、ほとんどの場合、この研究の主流となる手法は、あらかじめ一定の数のハイライトカテゴリを適切に定義し、同時にすべてのトレーニングデータを利用できるようにし、結果として、ハイライトカテゴリとデータセットのサイズの両方に関してスケーラビリティの低下につながるという、クローズドワールドの前提に基づいて構築されている。
本稿では,上記の問題に対処するために,拡張データセットで新たに定義された映像ハイライトを対応するプロトタイプを用いてキャプチャし,段階的に学習可能なビデオハイライト検出器を提案する。
同時に,5.1k以上のグルメビデオを含む,注釈付きで費用がかかる「emph{ByteFood}」というデータセットを,それぞれ「emph{cooking}」,「emph{eating}」,「emph{food material}」,「emph{presentation}」の4つの異なるドメインに属している。
私たちの知る限り、インクリメンタルな学習設定がビデオハイライト検出に導入されたのはこれが初めてであり、それによってビデオ入力のトレーニングの負担が軽減され、データセットのサイズとドメインの量の両方に比例して従来のニューラルネットワークのスケーラビリティが向上する。
さらに、提案したGPEは、現在のemph{ByteFood}の漸進的な学習方法を超え、少なくとも1.57\% mAPの改善を報告している。
コードとデータセットはすぐに利用可能になる。
関連論文リスト
- CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey [42.22801056661226]
行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。
既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。
ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
論文 参考訳(メタデータ) (2022-11-17T05:05:42Z) - Extending Temporal Data Augmentation for Video Action Recognition [1.3807859854345832]
本研究では,空間領域と時間領域の関係を強化する新しい手法を提案する。
その結果,UCF-101データセットとHMDB-51データセットのTop-1およびTop-5設定では,ビデオアクション認識結果がそれぞれより優れていた。
論文 参考訳(メタデータ) (2022-11-09T13:49:38Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。