Fugu-MT 論文翻訳(概要): Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

論文の概要: Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

arxiv url: http://arxiv.org/abs/2307.09312v3
Date: Mon, 8 Jan 2024 00:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 23:22:51.871141
Title: Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media
Title（参考訳）: マルチモーダルディスカッション変換器:ソーシャルメディア上でのヘイトスピーチ検出のためのテキスト・画像・グラフ変換器の統合
Authors: Liam Hebert, Gaurav Sahu, Yuxuan Guo, Nanda Kishore Sreenivas, Lukasz Golab, Robin Cohen
Abstract要約: Reddit のようなオンラインソーシャルネットワーク上でヘイトスピーチを検出する新しい手法である Multi-Modal discussion Transformer (mDT) を提案する。従来のコメントのみの手法とは対照的に、ヘイトスピーチとしてコメントをラベル付けするアプローチには、議論の文脈に根ざしたテキストや画像の全体的分析が含まれる。これは、コメントを取り巻く議論において、グラフトランスフォーマーを活用してコンテキスト関係をキャプチャし、モーダルを別々に処理するのではなく、テキストと画像の埋め込みを組み合わせた相互融合層を基盤とする。
参考スコア（独自算出の注目度）: 6.3756400508728515
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the Multi-Modal Discussion Transformer (mDT), a novel methodfor detecting hate speech in online social networks such as Reddit discussions. In contrast to traditional comment-only methods, our approach to labelling a comment as hate speech involves a holistic analysis of text and images grounded in the discussion context. This is done by leveraging graph transformers to capture the contextual relationships in the discussion surrounding a comment and grounding the interwoven fusion layers that combine text and image embeddings instead of processing modalities separately. To evaluate our work, we present a new dataset, HatefulDiscussions, comprising complete multi-modal discussions from multiple online communities on Reddit. We compare the performance of our model to baselines that only process individual comments and conduct extensive ablation studies.
Abstract（参考訳）: Reddit のようなオンラインソーシャルネットワーク上でヘイトスピーチを検出する新しい手法である Multi-Modal discussion Transformer (mDT) を提案する。従来のコメントのみの手法とは対照的に、ヘイトスピーチとしてコメントをラベル付けするアプローチには、議論の文脈に根ざしたテキストや画像の全体的分析が含まれる。これは、コメントを取り巻く議論において、グラフトランスフォーマーを利用してコンテキスト関係をキャプチャし、モーダルを別々に処理するのではなく、テキストと画像の埋め込みを組み合わせた相互融合層を基盤とする。 reddit上の複数のオンラインコミュニティによる、完全なマルチモーダルな議論からなる新しいデータセットであるhatefuldiscussionsを提案する。モデルの性能を,個々のコメントのみを処理し,広範なアブレーション研究を行うベースラインと比較する。

関連論文リスト

Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T15:01:16Z)
Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文参考訳（メタデータ） (2023-09-23T12:06:05Z)
Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文参考訳（メタデータ） (2023-09-18T11:03:55Z)
Composition and Deformance: Measuring Imageability with a Text-to-Image Model [8.008504325316327]
生成した画像を用いて、単一英語の単語と接続されたテキストの可視性を測定する手法を提案する。提案手法と個人単語の人的判断との間には高い相関関係が認められた。本研究は,テキスト・ツー・イメージ・モデルにおけるモデルトレーニングの可能性と,構成性の研究に与える影響について論じる。
論文参考訳（メタデータ） (2023-06-05T18:22:23Z)
CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文参考訳（メタデータ） (2023-03-02T17:30:43Z)
Predicting Hateful Discussions on Reddit using Graph Transformer Networks and Communal Context [9.4337569682766]
ソーシャルメディアプラットフォーム上で有害な議論を予測するシステムを提案する。我々のソリューションは文脈の深い言語モデルを使用し、最先端のグラフトランスフォーマーネットワークを統合します。我々は,様々なコミュニティから333,487件のRedditディスカッションを行った。
論文参考訳（メタデータ） (2023-01-10T23:47:13Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文参考訳（メタデータ） (2022-11-14T11:41:44Z)
Affective Feedback Synthesis Towards Multimodal Text and Image Data [12.768277167508208]
我々は、入力テキストと対応する画像に対するフィードバックを生成する感情フィードバック合成の新しいタスクを定義した。画像テキスト入力とともに,地味な人間のコメントを用いてフィードバック合成システムを提案し,訓練した。生成したフィードバックは、自動評価と人的評価を用いて分析されている。
論文参考訳（メタデータ） (2022-03-23T19:28:20Z)
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文参考訳（メタデータ） (2021-05-10T06:55:39Z)
Diversifying Dialogue Generation with Non-Conversational Text [38.03510529185192]
非会話的テキストを活用することで対話生成を多様化する新しい視点を提案する。我々は、フォーラムコメント、イディオム、本スニペットを含む複数の情報源から、大規模な非会話コーパスを収集する。得られたモデルは、2つの会話データセット上でテストされ、コンテキストとの関連性を犠牲にすることなく、はるかに多様な応答を生成することが示されている。
論文参考訳（メタデータ） (2020-05-09T02:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。