論文の概要: Exploring Domain Incremental Video Highlights Detection with the
LiveFood Benchmark
- arxiv url: http://arxiv.org/abs/2209.05166v4
- Date: Tue, 12 Dec 2023 10:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 21:03:57.759449
- Title: Exploring Domain Incremental Video Highlights Detection with the
LiveFood Benchmark
- Title(参考訳): LiveFoodベンチマークによるドメインインクリメンタルビデオハイライト検出の探索
- Authors: Sen Pei, Shixiong Xu, and Xiaojie Jin
- Abstract要約: 本稿では,GPE(Global Prototype)と呼ばれる新しいビデオハイライト検出手法を提案する。
私たちの知る限りでは、インクリメンタルな学習環境でビデオハイライトの検出を探索するのはこれが初めてです。
- 参考スコア(独自算出の注目度): 12.151826076159134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video highlights detection (VHD) is an active research field in computer
vision, aiming to locate the most user-appealing clips given raw video inputs.
However, most VHD methods are based on the closed world assumption, i.e., a
fixed number of highlight categories is defined in advance and all training
data are available beforehand. Consequently, existing methods have poor
scalability with respect to increasing highlight domains and training data. To
address above issues, we propose a novel video highlights detection method
named Global Prototype Encoding (GPE) to learn incrementally for adapting to
new domains via parameterized prototypes. To facilitate this new research
direction, we collect a finely annotated dataset termed LiveFood, including
over 5,100 live gourmet videos that consist of four domains: ingredients,
cooking, presentation, and eating. To the best of our knowledge, this is the
first work to explore video highlights detection in the incremental learning
setting, opening up new land to apply VHD for practical scenarios where both
the concerned highlight domains and training data increase over time. We
demonstrate the effectiveness of GPE through extensive experiments. Notably,
GPE surpasses popular domain incremental learning methods on LiveFood,
achieving significant mAP improvements on all domains. Concerning the classic
datasets, GPE also yields comparable performance as previous arts. The code is
available at: https://github.com/ForeverPs/IncrementalVHD_GPE.
- Abstract(参考訳): video highlights detection (vhd) はコンピュータビジョンの活発な研究分野であり、生の動画入力から最もユーザーを惹きつけるクリップを見つけることを目的としている。
しかしながら、ほとんどのVHDメソッドは、クローズドワールドの仮定に基づいており、例えば、予め多くのハイライトカテゴリが定義されており、すべてのトレーニングデータが事前に利用可能である。
その結果、既存のメソッドはハイライトドメインの増加やトレーニングデータに関してスケーラビリティが低い。
上記の問題に対処するために,グローバルプロトタイプ符号化(gpe)と呼ばれる新しいビデオハイライト検出手法を提案し,パラメータ化されたプロトタイプを用いて新たなドメインへの適応を漸進的に学習する。
この新たな研究の方向性を促進するために、我々はlivefoodという注釈付きデータセットを収集し、材料、調理、プレゼンテーション、食事の4つのドメインからなる5100以上のライブグルメビデオを含む。
私たちの知る限り、これはインクリメンタルな学習環境におけるビデオハイライト検出を探求する最初の仕事であり、関心のある領域とトレーニングデータの両方が時間とともに増加する実用的なシナリオにvhdを適用するための新しい土地を開く。
広範囲な実験を通してGPEの有効性を実証する。
特に、GPEはLiveFoodの一般的なドメインインクリメンタル学習メソッドを超え、すべてのドメインで大きなmAP改善を実現している。
古典的なデータセットに関しては、GPEは以前のアーティファクトと同等のパフォーマンスを得る。
https://github.com/foreverps/incrementalvhd_gpe。
関連論文リスト
- CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey [42.22801056661226]
行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。
既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。
ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
論文 参考訳(メタデータ) (2022-11-17T05:05:42Z) - Extending Temporal Data Augmentation for Video Action Recognition [1.3807859854345832]
本研究では,空間領域と時間領域の関係を強化する新しい手法を提案する。
その結果,UCF-101データセットとHMDB-51データセットのTop-1およびTop-5設定では,ビデオアクション認識結果がそれぞれより優れていた。
論文 参考訳(メタデータ) (2022-11-09T13:49:38Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。