論文の概要: How Hateful are Movies? A Study and Prediction on Movie Subtitles
- arxiv url: http://arxiv.org/abs/2108.10724v1
- Date: Thu, 19 Aug 2021 16:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 12:35:22.116236
- Title: How Hateful are Movies? A Study and Prediction on Movie Subtitles
- Title(参考訳): 映画ってどんなものか?
映画字幕に関する考察と予測
- Authors: Niklas von Boguszewski, Sana Moin, Anirban Bhowmick, Seid Muhie Yimam,
Chris Biemann
- Abstract要約: 6本の映画のサブタイトルから収集された新しいデータセットを導入し、それぞれの発話をヘイト、攻撃的、あるいは正常としてアノテートする。
既存のソーシャルメディアデータセットにドメイン適応と微調整の伝達学習手法を適用した。
ソーシャルメディア分野からの転向学習は,映画におけるヘイトと攻撃的なスピーチを字幕で分類する上で有効であることを示す。
- 参考スコア(独自算出の注目度): 19.16111618664515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this research, we investigate techniques to detect hate speech in movies.
We introduce a new dataset collected from the subtitles of six movies, where
each utterance is annotated either as hate, offensive or normal. We apply
transfer learning techniques of domain adaptation and fine-tuning on existing
social media datasets, namely from Twitter and Fox News. We evaluate different
representations, i.e., Bag of Words (BoW), Bi-directional Long short-term
memory (Bi-LSTM), and Bidirectional Encoder Representations from Transformers
(BERT) on 11k movie subtitles. The BERT model obtained the best macro-averaged
F1-score of 77%. Hence, we show that transfer learning from the social media
domain is efficacious in classifying hate and offensive speech in movies
through subtitles.
- Abstract(参考訳): 本研究では,映画におけるヘイトスピーチの検出手法について検討する。
6本の映画のサブタイトルから収集された新しいデータセットを導入し、それぞれの発話をヘイト、攻撃的、あるいは正常にアノテートする。
我々は、既存のソーシャルメディアデータセット、すなわちTwitterやFox Newsにドメイン適応と微調整の伝達学習手法を適用した。
11k 映画の字幕上では,Bag of Words (BoW), Bi-directional Long Short-term memory (Bi-LSTM), Bidirectional Encoder Representations from Transformers (BERT) などの異なる表現を評価する。
BERTモデルは77%のマクロ平均F1スコアを得た。
したがって、ソーシャルメディア領域からの転向学習は、字幕による映画における憎悪と不快なスピーチの分類に有効であることを示す。
関連論文リスト
- MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili [11.049937698021054]
本研究は,ヘイトレキシコンと人間のアノテーションによって作成された,新しい多言語データセットであるMultiHateClipを提案する。
英語と中国語の両方のコンテンツを含む、YouTubeやBilibiliなどのプラットフォーム上でのヘイトフルなビデオの検出を強化することを目的としている。
論文 参考訳(メタデータ) (2024-07-28T08:19:09Z) - Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。
M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。
SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文 参考訳(メタデータ) (2024-06-18T22:44:50Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z) - Fine-grained Emotion and Intent Learning in Movie Dialogues [1.2891210250935146]
OpenSubtitlesコーパスから取得した1Mの対話からなる、新しい大規模感情対話データセットを提案する。
本研究は,映画の字幕の前処理や,アノテートに優れた映画対話の選択に使用される複雑なパイプラインを説明する。
このような感情対話の分類は、データセットのサイズと微粒な感情と意図のカテゴリーの両方において試みられたことがない。
論文 参考訳(メタデータ) (2020-12-25T20:29:56Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Speech2Action: Cross-modal Supervision for Action Recognition [127.10071447772407]
BERTベースのSpeech2Action分類器を1000以上の映画画面上で訓練する。
次に,このモデルを大容量映画コーパスの音声セグメントに適用する。
このモデルの予測を用いて,800K以上のビデオクリップに対して弱い動作ラベルを求める。
論文 参考訳(メタデータ) (2020-03-30T16:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。