論文の概要: The Potential of Vision-Language Models for Content Moderation of
Children's Videos
- arxiv url: http://arxiv.org/abs/2312.03936v1
- Date: Wed, 6 Dec 2023 22:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:39:06.923238
- Title: The Potential of Vision-Language Models for Content Moderation of
Children's Videos
- Title(参考訳): 子どもの映像のコンテンツモデレーションのための視覚言語モデルの可能性
- Authors: Syed Hammad Ahmed, Shengnan Hu, Gita Sukthankar
- Abstract要約: 本稿では、文脈固有の言語がコンテンツモデレーション性能にどのように影響するかを詳細に分析する。
コンテンツモデレーションのプロンプトにもっとコンテキストを含めることが重要です。
- 参考スコア(独自算出の注目度): 1.0589208420411014
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Natural language supervision has been shown to be effective for zero-shot
learning in many computer vision tasks, such as object detection and activity
recognition. However, generating informative prompts can be challenging for
more subtle tasks, such as video content moderation. This can be difficult, as
there are many reasons why a video might be inappropriate, beyond violence and
obscenity. For example, scammers may attempt to create junk content that is
similar to popular educational videos but with no meaningful information. This
paper evaluates the performance of several CLIP variations for content
moderation of children's cartoons in both the supervised and zero-shot setting.
We show that our proposed model (Vanilla CLIP with Projection Layer)
outperforms previous work conducted on the Malicious or Benign (MOB) benchmark
for video content moderation. This paper presents an in depth analysis of how
context-specific language prompts affect content moderation performance. Our
results indicate that it is important to include more context in content
moderation prompts, particularly for cartoon videos as they are not well
represented in the CLIP training data.
- Abstract(参考訳): 自然言語監督は、オブジェクト検出やアクティビティ認識など、多くのコンピュータビジョンタスクにおいてゼロショット学習に有効であることが示されている。
しかし、ビデオコンテンツモデレーションのようなより微妙なタスクでは、情報的なプロンプトを生成することは難しい。
ビデオが暴力やわいせつを超えて不適切である理由がたくさんあるため、これは難しい可能性がある。
例えば、詐欺師は人気のある教育ビデオに似ているが意味のある情報を持たないジャンクコンテンツを作成しようとする。
本稿では,教師付きおよびゼロショット設定の両方において,子どもの漫画のコンテンツモデレーションのためのクリップ変動の性能を評価する。
提案するモデル (Vanilla CLIP with Projection Layer) は,Malicious or Benign (MOB) ベンチマークによる映像コンテンツのモデレーションにおいて, 従来よりも優れていることを示す。
本稿では,文脈固有の言語がコンテンツのモデレーション性能に与える影響を深く分析する。
コンテントモデレーションのプロンプトには,特にCLIPトレーニングデータによく表現されていないマンガビデオに,より多くのコンテキストを含めることの重要性が示唆された。
関連論文リスト
- Enhanced Multimodal Content Moderation of Children's Videos using Audiovisual Fusion [0.6963971634605796]
コンテントモデレーションの強化にコンテキストオーディオキューを活用するCLIPの効率的な適応を提案する。
我々はMOB(Malicious or Benign)データセットのマルチモーダルバージョンを教師付きおよび少数ショット設定で実験する。
論文 参考訳(メタデータ) (2024-05-09T22:19:40Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Deep Architectures for Content Moderation and Movie Content Rating [3.04585143845864]
映画コンテンツの格付けとテレビ番組の格付けは、専門委員会によって確立された2つの最も一般的な格付けシステムである。
コンピュータビジョンに基づく映像コンテンツ分析技術を用いて評価プロセスを自動化することが望ましい方法である。
本稿では,アクション認識,マルチモーダル学習,映画ジャンル分類,センシティブコンテンツ検出に関する関連研究を要約する。
論文 参考訳(メタデータ) (2022-12-08T19:50:53Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - CLUE: Contextualised Unified Explainable Learning of User Engagement in
Video Lectures [6.25256391074865]
本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。
我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
論文 参考訳(メタデータ) (2022-01-14T19:51:06Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。