論文の概要: Multi-Modal Discussion Transformer: Integrating Text, Images and Graph
Transformers to Detect Hate Speech on Social Media
- arxiv url: http://arxiv.org/abs/2307.09312v2
- Date: Thu, 31 Aug 2023 15:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 19:28:49.154911
- Title: Multi-Modal Discussion Transformer: Integrating Text, Images and Graph
Transformers to Detect Hate Speech on Social Media
- Title(参考訳): マルチモーダルディスカッション変換器:ソーシャルメディア上でのヘイトスピーチ検出のためのテキスト・画像・グラフ変換器の統合
- Authors: Liam Hebert, Gaurav Sahu, Yuxuan Guo, Nanda Kishore Sreenivas, Lukasz
Golab, Robin Cohen
- Abstract要約: 本稿では,オンラインソーシャルネットワークにおけるヘイトスピーチ検出のためのマルチモーダルグラフベースのトランスフォーマーモデルを提案する。
従来のコメントのみの手法とは対照的に,本手法では議論の文脈に根ざしたテキストや画像の全体的分析を行う。
オンラインの文脈でソーシャルな価値を提供するためのマルチモーダルソリューションの今後の取り組みを締めくくります。
- 参考スコア(独自算出の注目度): 6.3756400508728515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Multi-Modal Discussion Transformer (mDT), a novel multi-modal
graph-based transformer model for detecting hate speech in online social
networks, such as Reddit discussions. In contrast to traditional comment-only
methods, our approach to labelling a comment as hate speech involves a holistic
analysis of text and images grounded in the discussion context. This is done by
leveraging graph transformers to capture the contextual relationships in the
entire discussion surrounding a comment and grounding the interwoven fusion
layers that combine individual comments' text and image embeddings instead of
processing modalities separately. We compare the performance of our model to
baselines that only process individual comments and conduct extensive ablation
studies. To evaluate our work, we present a new dataset, HatefulDiscussions,
comprising complete multi-modal discussions from multiple online communities on
Reddit. We conclude with future work for multimodal solutions to deliver social
value in online contexts, arguing that capturing a holistic view of a
conversation significantly advances the effort to detect anti-social behaviour.
- Abstract(参考訳): Redditのようなオンラインソーシャルネットワークにおけるヘイトスピーチを検出するためのマルチモーダルグラフベースのトランスフォーマーモデルであるMulti-Modal discussion Transformer(mDT)を提案する。
従来のコメントのみの手法とは対照的に、ヘイトスピーチとしてコメントをラベル付けするアプローチには、議論の文脈に根ざしたテキストや画像の全体的分析が含まれる。
これは、グラフトランスフォーマーを活用して、コメントを取り巻く議論全体のコンテキスト関係をキャプチャし、個別のコメントのテキストと画像の埋め込みを別々に処理する代わりに組み合わせた相互融合層を基盤とする。
モデルの性能を,個々のコメントのみを処理し,広範なアブレーション研究を行うベースラインと比較する。
reddit上の複数のオンラインコミュニティによる、完全なマルチモーダルな議論からなる新しいデータセットであるhatefuldiscussionsを提案する。
オンラインの文脈における社会的価値を提供するためのマルチモーダル・ソリューションの今後の取り組みは、会話の全体像を捉えることは、反社会的行動を検出する努力を著しく前進させると主張している。
関連論文リスト
- Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal
Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。
提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-23T12:06:05Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Composition and Deformance: Measuring Imageability with a Text-to-Image
Model [8.008504325316327]
生成した画像を用いて、単一英語の単語と接続されたテキストの可視性を測定する手法を提案する。
提案手法と個人単語の人的判断との間には高い相関関係が認められた。
本研究は,テキスト・ツー・イメージ・モデルにおけるモデルトレーニングの可能性と,構成性の研究に与える影響について論じる。
論文 参考訳(メタデータ) (2023-06-05T18:22:23Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Predicting Hateful Discussions on Reddit using Graph Transformer
Networks and Communal Context [9.4337569682766]
ソーシャルメディアプラットフォーム上で有害な議論を予測するシステムを提案する。
我々のソリューションは文脈の深い言語モデルを使用し、最先端のグラフトランスフォーマーネットワークを統合します。
我々は,様々なコミュニティから333,487件のRedditディスカッションを行った。
論文 参考訳(メタデータ) (2023-01-10T23:47:13Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Affective Feedback Synthesis Towards Multimodal Text and Image Data [12.768277167508208]
我々は、入力テキストと対応する画像に対するフィードバックを生成する感情フィードバック合成の新しいタスクを定義した。
画像テキスト入力とともに,地味な人間のコメントを用いてフィードバック合成システムを提案し,訓練した。
生成したフィードバックは、自動評価と人的評価を用いて分析されている。
論文 参考訳(メタデータ) (2022-03-23T19:28:20Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Diversifying Dialogue Generation with Non-Conversational Text [38.03510529185192]
非会話的テキストを活用することで対話生成を多様化する新しい視点を提案する。
我々は、フォーラムコメント、イディオム、本スニペットを含む複数の情報源から、大規模な非会話コーパスを収集する。
得られたモデルは、2つの会話データセット上でテストされ、コンテキストとの関連性を犠牲にすることなく、はるかに多様な応答を生成することが示されている。
論文 参考訳(メタデータ) (2020-05-09T02:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。