論文の概要: Scalable Temporal Localization of Sensitive Activities in Movies and TV
Episodes
- arxiv url: http://arxiv.org/abs/2206.08429v1
- Date: Thu, 16 Jun 2022 20:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:59:59.457634
- Title: Scalable Temporal Localization of Sensitive Activities in Movies and TV
Episodes
- Title(参考訳): 映画・テレビエピソードにおける感性活動のスケーラブルな時間的局在
- Authors: Xiang Hao, Jingxiang Chen, Shixing Chen, Ahmed Saad, Raffay Hamid
- Abstract要約: 本稿では,ビデオレベルの弱いラベルと,年齢に応じた活動の少ないクリップレベルのラベルを併用した新しいネットワークを提案する。
我々のアプローチは、既存の最先端のアクティビティローカライゼーションアプローチよりも107.2%の相対的なmAP改善(5.5%から11.4%)を提供する。
- 参考スコア(独自算出の注目度): 6.674752821781089
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To help customers make better-informed viewing choices, video-streaming
services try to moderate their content and provide more visibility into which
portions of their movies and TV episodes contain age-appropriate material
(e.g., nudity, sex, violence, or drug-use). Supervised models to localize these
sensitive activities require large amounts of clip-level labeled data which is
hard to obtain, while weakly-supervised models to this end usually do not offer
competitive accuracy. To address this challenge, we propose a novel Coarse2Fine
network designed to make use of readily obtainable video-level weak labels in
conjunction with sparse clip-level labels of age-appropriate activities. Our
model aggregates frame-level predictions to make video-level classifications
and is therefore able to leverage sparse clip-level labels along with
video-level labels. Furthermore, by performing frame-level predictions in a
hierarchical manner, our approach is able to overcome the label-imbalance
problem caused due to the rare-occurrence nature of age-appropriate content. We
present comparative results of our approach using 41,234 movies and TV episodes
(~3 years of video-content) from 521 sub-genres and 250 countries making it by
far the largest-scale empirical analysis of age-appropriate activity
localization in long-form videos ever published. Our approach offers 107.2%
relative mAP improvement (from 5.5% to 11.4%) over existing state-of-the-art
activity-localization approaches.
- Abstract(参考訳): 視聴者がより良い視聴を選択できるようにするため、ビデオストリーミングサービスはコンテンツを調整し、映画やテレビ番組のどの部分が年齢に合った素材(ヌード、セックス、暴力、薬物使用など)を含んでいるかをより視認する。
これらのセンシティブなアクティビティをローカライズするための監視されたモデルは、取得が難しい大量のクリップレベルのラベル付きデータを必要とするが、この目的に対する弱い教師付きモデルは、通常競争の精度を提供しない。
そこで,本研究では,ビデオレベルの弱いラベルを,年齢に合った比較的少ないクリップレベルラベルと併用して,容易に得ることのできる粗い2フィギュアネットワークを提案する。
本モデルでは,フレームレベルの予測を集約してビデオレベルの分類を行い,ビデオレベルのラベルとともにクリップレベルの粗いラベルを活用できる。
さらに,フレームレベルの予測を階層的に行うことで,年齢に適したコンテンツのまれな発生性に起因するラベル不均衡問題を克服することができる。
521ヶ国・250ヶ国の41,234本の映画とテレビのエピソード(約3年間の映像コンテンツ)を用いて,これまでに公開された長編ビデオにおいて,年齢に適した活動ローカライゼーションの最大規模の実証分析を行った。
我々のアプローチは、既存の最先端のアクティビティローカライゼーションアプローチよりも107.2%の相対的なmAP改善(5.5%から11.4%)を提供する。
関連論文リスト
- E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement [25.14502964994855]
Dive Into the BoundarieS (DIBS) は高密度ビデオキャプション(DVC)のための新しい事前学習フレームワークである。
我々は、多目的のキャプション候補を生成し、複数の厳密に設計された目的の下で、対応する擬似境界を最適化する。
また、トレーニング中に擬似境界の質を反復的に改善する新しいオンライン境界改善戦略も導入する。
論文 参考訳(メタデータ) (2024-04-03T13:57:08Z) - Minority-Oriented Vicinity Expansion with Attentive Aggregation for
Video Long-Tailed Recognition [6.673349839900761]
非常に多種多様なトピックが出現する現実世界のビデオボリュームの劇的な増加は、そのカテゴリの観点からも、自然に長い尾の動画配信を形成している。
本稿では,ビデオ長大認識における課題を要約し,その克服方法について考察する。
提案手法は, 大規模ビデオLTとIm Balanced-MiniKinetics200を合成的に誘導し, 最先端の成果を得る。
論文 参考訳(メタデータ) (2022-11-24T08:33:59Z) - Tragedy Plus Time: Capturing Unintended Human Activities from
Weakly-labeled Videos [31.1632730473261]
W-Oopsは2100の意図しない人間のアクションビデオで構成され、44のゴール指向と30の意図しないビデオレベルのアクティビティラベルが人間のアノテーションを通じて収集されている。
本稿では,映像中の意図しない時間領域だけでなく,目標指向の局所化のための弱教師付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-28T14:56:43Z) - Scaling New Peaks: A Viewership-centric Approach to Automated Content
Curation [4.38301148531795]
本稿では,様々なセグメント識別目標に対応するビューアシップ駆動自動手法を提案する。
衛星テレビ視聴データを用いて、視聴者関心の「シード」セグメントを特定するために、視聴者関心の源泉として、視聴者関心の時系列に統計的異常検出を適用した。
我々は、2019年12月19日にアメリカ合衆国民主党大統領討論会と、2019年ウィンブルドン女子最終討論会で2つのケーススタディを提示した。
論文 参考訳(メタデータ) (2021-08-09T17:17:29Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。