Fugu-MT 論文翻訳(概要): Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

論文の概要: Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

arxiv url: http://arxiv.org/abs/2307.09312v1
Date: Tue, 18 Jul 2023 14:57:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-19 14:14:08.100101
Title: Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media
Title（参考訳）: マルチモーダルディスカッション変換器:ソーシャルメディア上でのヘイトスピーチ検出のためのテキスト・画像・グラフ変換器の統合
Authors: Liam Hebert, Gaurav Sahu, Nanda Kishore Sreenivas, Lukasz Golab, Robin Cohen
Abstract要約: 我々は、オンラインソーシャルネットワークにおけるヘイトスピーチを検出するための新しいマルチモーダルグラフベースのトランスフォーマーモデルであるMulti-Modal Discussion Transformer(mDT)を提案する。従来のテキストのみの手法とは対照的に、ヘイトスピーチとしてコメントをラベル付けするアプローチは、テキストと画像の全体分析を中心にしている。
参考スコア（独自算出の注目度）: 9.684745690372749
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the Multi-Modal Discussion Transformer (mDT), a novel multi-modal graph-based transformer model for detecting hate speech in online social networks. In contrast to traditional text-only methods, our approach to labelling a comment as hate speech centers around the holistic analysis of text and images. This is done by leveraging graph transformers to capture the contextual relationships in the entire discussion that surrounds a comment, with interwoven fusion layers to combine text and image embeddings instead of processing different modalities separately. We compare the performance of our model to baselines that only process text; we also conduct extensive ablation studies. We conclude with future work for multimodal solutions to deliver social value in online contexts, arguing that capturing a holistic view of a conversation greatly advances the effort to detect anti-social behavior.
Abstract（参考訳）: オンラインソーシャルネットワークにおけるヘイトスピーチを検出するための新しいマルチモーダルグラフベースのトランスフォーマモデルであるMulti-Modal Discussion Transformer(mDT)を提案する。従来のテキストのみの方法とは対照的に、コメントをヘイトスピーチとしてラベル付けするアプローチは、テキストと画像の総合分析を中心にしている。これは、グラフトランスフォーマーを活用して、コメントを取り巻く議論全体のコンテキスト関係をキャプチャし、異なるモダリティを別々に処理する代わりに、テキストと画像の埋め込みを結合するための融合層を織り込む。我々は,本モデルの性能をテキストのみを処理するベースラインと比較し,広範囲にわたるアブレーション研究も行った。オンラインの文脈における社会的価値を提供するためのマルチモーダルソリューションの今後の取り組みは、会話の全体像を捉えることは、反社会的行動を検出する努力を大幅に前進させる、と論じる。

関連論文リスト

Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T15:01:16Z)
Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文参考訳（メタデータ） (2023-09-23T12:06:05Z)
Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文参考訳（メタデータ） (2023-09-18T11:03:55Z)
Composition and Deformance: Measuring Imageability with a Text-to-Image Model [8.008504325316327]
生成した画像を用いて、単一英語の単語と接続されたテキストの可視性を測定する手法を提案する。提案手法と個人単語の人的判断との間には高い相関関係が認められた。本研究は,テキスト・ツー・イメージ・モデルにおけるモデルトレーニングの可能性と,構成性の研究に与える影響について論じる。
論文参考訳（メタデータ） (2023-06-05T18:22:23Z)
CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文参考訳（メタデータ） (2023-03-02T17:30:43Z)
Predicting Hateful Discussions on Reddit using Graph Transformer Networks and Communal Context [9.4337569682766]
ソーシャルメディアプラットフォーム上で有害な議論を予測するシステムを提案する。我々のソリューションは文脈の深い言語モデルを使用し、最先端のグラフトランスフォーマーネットワークを統合します。我々は,様々なコミュニティから333,487件のRedditディスカッションを行った。
論文参考訳（メタデータ） (2023-01-10T23:47:13Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文参考訳（メタデータ） (2022-11-14T11:41:44Z)
Affective Feedback Synthesis Towards Multimodal Text and Image Data [12.768277167508208]
我々は、入力テキストと対応する画像に対するフィードバックを生成する感情フィードバック合成の新しいタスクを定義した。画像テキスト入力とともに,地味な人間のコメントを用いてフィードバック合成システムを提案し,訓練した。生成したフィードバックは、自動評価と人的評価を用いて分析されている。
論文参考訳（メタデータ） (2022-03-23T19:28:20Z)
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文参考訳（メタデータ） (2021-05-10T06:55:39Z)
Diversifying Dialogue Generation with Non-Conversational Text [38.03510529185192]
非会話的テキストを活用することで対話生成を多様化する新しい視点を提案する。我々は、フォーラムコメント、イディオム、本スニペットを含む複数の情報源から、大規模な非会話コーパスを収集する。得られたモデルは、2つの会話データセット上でテストされ、コンテキストとの関連性を犠牲にすることなく、はるかに多様な応答を生成することが示されている。
論文参考訳（メタデータ） (2020-05-09T02:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。