論文の概要: ToxVidLM: A Multimodal Framework for Toxicity Detection in Code-Mixed Videos
- arxiv url: http://arxiv.org/abs/2405.20628v2
- Date: Sun, 14 Jul 2024 07:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 00:26:24.984900
- Title: ToxVidLM: A Multimodal Framework for Toxicity Detection in Code-Mixed Videos
- Title(参考訳): ToxVidLM: コードミキシングビデオにおける毒性検出のためのマルチモーダルフレームワーク
- Authors: Krishanu Maity, A. S. Poornash, Sriparna Saha, Pushpak Bhattacharyya,
- Abstract要約: ToxVidLMには、マルチモーダルモジュール、クロスモーダルシンクロナイゼーションモジュール、マルチタスクモジュールという3つの重要なモジュールが含まれている。
本稿では,YouTubeから収集した931の動画と4021のコード混成ヒンディー語発話からなるベンチマークデータセットを提案する。
- 参考スコア(独自算出の注目度): 46.148023197749396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an era of rapidly evolving internet technology, the surge in multimodal content, including videos, has expanded the horizons of online communication. However, the detection of toxic content in this diverse landscape, particularly in low-resource code-mixed languages, remains a critical challenge. While substantial research has addressed toxic content detection in textual data, the realm of video content, especially in non-English languages, has been relatively underexplored. This paper addresses this research gap by introducing a benchmark dataset, the first of its kind, consisting of 931 videos with 4021 code-mixed Hindi-English utterances collected from YouTube. Each utterance within this dataset has been meticulously annotated for toxicity, severity, and sentiment labels. We have developed an advanced Multimodal Multitask framework built for Toxicity detection in Video Content by leveraging Language Models (LMs), crafted for the primary objective along with the additional tasks of conducting sentiment and severity analysis. ToxVidLM incorporates three key modules - the Encoder module, Cross-Modal Synchronization module, and Multitask module - crafting a generic multimodal LM customized for intricate video classification tasks. Our experiments reveal that incorporating multiple modalities from the videos substantially enhances the performance of toxic content detection by achieving an Accuracy and Weighted F1 score of 94.29% and 94.35%, respectively.
- Abstract(参考訳): 急速に発展するインターネット技術の時代、ビデオを含むマルチモーダルコンテンツの急増は、オンラインコミュニケーションの視野を広げた。
しかし、この多様なランドスケープ、特に低リソースのコード混在言語における有害なコンテンツの検出は、依然として重要な課題である。
テキストデータにおける有毒なコンテンツ検出には、かなりの研究が取り組んできたが、特に非英語言語におけるビデオコンテンツの領域は、比較的過小評価されている。
本稿は、YouTubeから収集した4021のコード混成ヒンディー語発話を含む931の動画からなる、この種のベンチマークデータセットを導入することで、この研究ギャップに対処する。
このデータセット内の各発話は、毒性、重度、感情ラベルに対して慎重に注釈付けされている。
我々は,言語モデル(LM)を利用した映像コンテンツの毒性検出のための高度なマルチモーダル・マルチタスク・フレームワークを開発した。
ToxVidLMにはEncoderモジュール、Cross-Modal Synchronizationモジュール、Multitaskモジュールという3つの重要なモジュールが含まれている。
実験の結果, ビデオから複数のモダリティを取り入れることで, それぞれ94.29%, 94.35%の精度と重み付きF1スコアを達成し, 有毒なコンテンツ検出性能を著しく向上させることがわかった。
関連論文リスト
- MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。
実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。
我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文 参考訳(メタデータ) (2024-07-11T03:00:26Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。