論文の概要: Enhanced Multimodal Content Moderation of Children's Videos using Audiovisual Fusion
- arxiv url: http://arxiv.org/abs/2405.06128v1
- Date: Thu, 9 May 2024 22:19:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:06:55.307255
- Title: Enhanced Multimodal Content Moderation of Children's Videos using Audiovisual Fusion
- Title(参考訳): 聴覚融合による子どもの映像のマルチモーダル・コンテンツ・モデレーションの強化
- Authors: Syed Hammad Ahmed, Muhammad Junaid Khan, Gita Sukthankar,
- Abstract要約: コンテントモデレーションの強化にコンテキストオーディオキューを活用するCLIPの効率的な適応を提案する。
我々はMOB(Malicious or Benign)データセットのマルチモーダルバージョンを教師付きおよび少数ショット設定で実験する。
- 参考スコア(独自算出の注目度): 0.6963971634605796
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the rise in video content creation targeted towards children, there is a need for robust content moderation schemes for video hosting platforms. A video that is visually benign may include audio content that is inappropriate for young children while being impossible to detect with a unimodal content moderation system. Popular video hosting platforms for children such as YouTube Kids still publish videos which contain audio content that is not conducive to a child's healthy behavioral and physical development. A robust classification of malicious videos requires audio representations in addition to video features. However, recent content moderation approaches rarely employ multimodal architectures that explicitly consider non-speech audio cues. To address this, we present an efficient adaptation of CLIP (Contrastive Language-Image Pre-training) that can leverage contextual audio cues for enhanced content moderation. We incorporate 1) the audio modality and 2) prompt learning, while keeping the backbone modules of each modality frozen. We conduct our experiments on a multimodal version of the MOB (Malicious or Benign) dataset in supervised and few-shot settings.
- Abstract(参考訳): 子どもを対象にしたビデオコンテンツ制作が増加しているため、ビデオホスティングプラットフォーム向けのロバストなコンテンツモデレーションスキームが必要である。
視覚的に良性のあるビデオは、幼児にとって不適切な音声コンテンツを含むことができ、一方、単調なコンテンツモデレーションシステムでは検出できない。
子供向けの人気ビデオホスティングプラットフォームであるYouTube Kidsは、子供の健康的な行動や身体的発達に影響を与えないオーディオコンテンツを含むビデオをまだ公開している。
悪意のあるビデオの堅牢な分類には、ビデオ機能に加えて音声表現が必要である。
しかし、近年のコンテンツモデレーションアプローチでは、非音声音声キューを明示的に考慮するマルチモーダルアーキテクチャはめったに採用されていない。
そこで本研究では,CLIP(Contrastive Language- Image Pre-training)の効率よく適応し,コンテントモデレーションの強化にコンテキストオーディオキューを活用する手法を提案する。
組み込む
1)音声のモーダリティと
2【学習】各モダリティのバックボーンモジュールを凍結させながら,迅速な学習を行う。
我々はMOB(Malicious or Benign)データセットのマルチモーダルバージョンで、教師付きおよび少数ショット設定で実験を行う。
関連論文リスト
- MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation [43.35578187209748]
Foley AudioはAIGC(AI- generated Content)のランドスケープにおいて大きな課題に直面している。
現在のテクスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存している。
MINT(Multi-modal Image and Narrative Text Dubbing dataset)を導入する。
MINTは、文学的なストーリーオーディオブックのダビング、イメージ/サイレントビデオダビングといったメインストリームのダビングタスクを強化するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T10:47:36Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - The Potential of Vision-Language Models for Content Moderation of
Children's Videos [1.0589208420411014]
本稿では、文脈固有の言語がコンテンツモデレーション性能にどのように影響するかを詳細に分析する。
コンテンツモデレーションのプロンプトにもっとコンテキストを含めることが重要です。
論文 参考訳(メタデータ) (2023-12-06T22:29:16Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Malicious or Benign? Towards Effective Content Moderation for Children's
Videos [1.0323063834827415]
本稿では,児童ビデオの自動コンテンツモデレーションに関する研究を促進するためのツールキットであるMalicious or Benignを紹介する。
1)ビデオのカスタマイズ可能なアノテーションツール,2)悪意のあるコンテンツのテストケースを検出するのが難しい新しいデータセット,3)最先端のビデオ分類モデルのベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2023-05-24T20:33:38Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - 'Beach' to 'Bitch': Inadvertent Unsafe Transcription of Kids' Content on
YouTube [13.116806430326513]
有名な自動音声認識(ASR)システムは、YouTube Kidsのビデオの書き起こしをしながら、子供にとって非常に不適切なテキストコンテンツを生成できる。
我々は、既存の最先端のASRシステムが子供に不適切なコンテンツを幻覚させるような、第一級のオーディオデータセットをリリースする。
論文 参考訳(メタデータ) (2022-02-17T19:19:09Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。