論文の概要: Cross-Modal Transfer from Memes to Videos: Addressing Data Scarcity in Hateful Video Detection
- arxiv url: http://arxiv.org/abs/2501.15438v1
- Date: Sun, 26 Jan 2025 07:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:54:52.190781
- Title: Cross-Modal Transfer from Memes to Videos: Addressing Data Scarcity in Hateful Video Detection
- Title(参考訳): ミームからビデオへのクロスモーダル転送--Hateful Video Detectionにおけるデータスカシティの対応
- Authors: Han Wang, Rui Yang Tan, Roy Ka-Wei Lee,
- Abstract要約: ビデオベースのヘイトスピーチ検出は、注釈付きデータセットの欠如とビデオアノテーションのコストの高さによって、未発見のままである。
我々は、ヘイトフルなビデオ検出モデルをトレーニングするための代替および強化戦略として、ミームデータセットを活用する。
我々の結果は、常に最先端のベンチマークより優れています。
- 参考スコア(独自算出の注目度): 8.05088621131726
- License:
- Abstract: Detecting hate speech in online content is essential to ensuring safer digital spaces. While significant progress has been made in text and meme modalities, video-based hate speech detection remains under-explored, hindered by a lack of annotated datasets and the high cost of video annotation. This gap is particularly problematic given the growing reliance on large models, which demand substantial amounts of training data. To address this challenge, we leverage meme datasets as both a substitution and an augmentation strategy for training hateful video detection models. Our approach introduces a human-assisted reannotation pipeline to align meme dataset labels with video datasets, ensuring consistency with minimal labeling effort. Using two state-of-the-art vision-language models, we demonstrate that meme data can substitute for video data in resource-scarce scenarios and augment video datasets to achieve further performance gains. Our results consistently outperform state-of-the-art benchmarks, showcasing the potential of cross-modal transfer learning for advancing hateful video detection. Dataset and code are available at https://github.com/Social-AI-Studio/CrossModalTransferLearning.
- Abstract(参考訳): オンラインコンテンツにおけるヘイトスピーチの検出は、より安全なデジタル空間を確保するために不可欠である。
テキストやミームのモダリティでは大きな進歩があったが、ビデオベースのヘイトスピーチ検出は未探索のままであり、注釈付きデータセットの欠如とビデオアノテーションの高コストによって妨げられている。
このギャップは、大量のトレーニングデータを必要とする大規模なモデルに依存しているため、特に問題となる。
この課題に対処するために、私たちは、ヘイトフルなビデオ検出モデルをトレーニングするための代替および強化戦略として、ミームデータセットを活用する。
提案手法では,ビデオデータセットにミームデータセットラベルをアライメントし,最小限のラベル付け作業との整合性を確保するために,人手による再アノテーションパイプラインを導入している。
2つの最先端のビジョン言語モデルを用いて、ミームデータがリソース不足のシナリオにおけるビデオデータの代わりになり、ビデオデータセットを拡大してさらなるパフォーマンス向上を達成できることを実証する。
我々の結果は常に最先端のベンチマークを上回り、ヘイトフルなビデオ検出を促進するためのクロスモーダル・トランスファー・ラーニングの可能性を示している。
データセットとコードはhttps://github.com/Social-AI-Studio/CrossModalTransferLearningで公開されている。
関連論文リスト
- MAMA: Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning [34.259833094575285]
MAMAはビデオ言語表現の学習における新たなアプローチである。
MAMAは、ビデオ言語表現を改善し、一般的なビデオ質問応答やテキストビデオ検索データセットにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-04T09:52:17Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval [16.548016892117083]
近年,テキストビデオ検索手法が注目されている。
データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。
特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T14:05:20Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Learning Disentangled Representations of Video with Missing Data [17.34839550557689]
本稿では,DIVE(Disentangled Imputed Video AutoEncoder)について紹介する。
具体的には、DIVEは遅延変数を導入し、隠れたビデオ表現を静的でダイナミックな外観、ポーズ、各オブジェクトの欠落要素に分解する。
さまざまな不足シナリオを持つ移動MNISTデータセットでは、DIVEは、アートベースラインの状態をかなりのマージンで上回る。
論文 参考訳(メタデータ) (2020-06-23T23:54:49Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。