論文の概要: Outcome-Constrained Large Language Models for Countering Hate Speech
- arxiv url: http://arxiv.org/abs/2403.17146v1
- Date: Mon, 25 Mar 2024 19:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:45:52.697448
- Title: Outcome-Constrained Large Language Models for Countering Hate Speech
- Title(参考訳): ヘイトスピーチに対するアウトカム制約付き大言語モデル
- Authors: Lingzi Hong, Pengcheng Luo, Eduardo Blanco, Xiaoying Song,
- Abstract要約: ヘイトスピーチへの挑戦や対応は、ヘイトスピーチのネガティブな影響を緩和し、生産的なオンラインコミュニケーションを促進する代替手段として見なされてきた。
既存の研究は、礼儀正しさ、情報的、意図駆動といった特定の言語的特性を持つ対音声の生成に焦点を当てている。
まず,大きな言語モデル(LLM)を用いて,潜在的な会話結果に制約された反音声を生成する手法について検討する。
- 参考スコア(独自算出の注目度): 10.434435022492723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterspeech that challenges or responds to hate speech has been seen as an alternative to mitigate the negative impact of hate speech and foster productive online communications. Research endeavors have been directed to using language models for the automatic generation of counterspeech to assist efforts in combating online hate. Existing research focuses on the generation of counterspeech with certain linguistic attributes, such as being polite, informative, and intent-driven. However, it remains unclear what impact the counterspeech might have in an online environment. We first explore methods that utilize large language models (LLM) to generate counterspeech constrained by potential conversation outcomes. We build two conversation outcome classifiers that predict the incivility level and the hater reentry behavior following replies to hate with Reddit data, then propose four methods to incorporate the desired outcomes, i.e., low conversation incivility and non-hateful hater reentry, into the text generation process, including Prompt with Instructions, Prompt and Select, LLM finetune, and LLM transformer reinforcement learning (TRL). Evaluation results show effective strategies to generate outcome-constrained counterspeech and the linguistic characteristics of texts generated by different methods.
- Abstract(参考訳): ヘイトスピーチへの挑戦や対応は、ヘイトスピーチのネガティブな影響を緩和し、生産的なオンラインコミュニケーションを促進する代替手段として見なされてきた。
研究は、オンラインヘイトと戦う努力を支援するために、言語モデルを使用して対抗音声を自動生成することを目的としている。
既存の研究は、礼儀正しさ、情報的、意図駆動といった特定の言語的特性を持つ対音声の生成に焦点を当てている。
しかし、オンライン環境での反響がどのような影響を及ぼすかは不明だ。
まず,大きな言語モデル(LLM)を用いて,潜在的な会話結果に制約された反音声を生成する手法について検討する。
本研究は,Redditデータに対する嫌悪感に追従して,インシヴィティレベルとハザーリエントリー行動を予測する2つの会話結果分類器を構築し,低会話インシビティと非ヘイトフルハザーリエントリーをテキスト生成プロセスに組み込むための4つの方法を提案する。
評価結果は,結果制約付き逆音声を生成するための効果的な戦略と,異なる手法により生成されたテキストの言語的特徴を示す。
関連論文リスト
- Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - Intent-conditioned and Non-toxic Counterspeech Generation using Multi-Task Instruction Tuning with RLAIF [14.2594830589926]
オンラインヘイトスピーチに対する反応として定義されているCounterspeechは、非センセーショナルソリューションとしてますます利用されている。
ヘイトフルステートメントにおける社会的バイアスの背景にある実践的意味をモデル化し,反音声生成を促進させる新しいフレームワークであるCoARLを紹介した。
CoARLの最初の2つのフェーズは、連続的なマルチインストラクションチューニング、インテント、反応、攻撃的ステートメントの害を理解するためのモデルを教えること、そしてインテント条件付き逆音声を生成するためのタスク固有の低ランクアダプタ重みを学習することである。
論文 参考訳(メタデータ) (2024-03-15T08:03:49Z) - DisCGen: A Framework for Discourse-Informed Counterspeech Generation [34.75404551612012]
本稿では,言論理論に基づく枠組みを提案し,反声と憎しみのあるコメントを結びつける推論リンクについて検討する。
本稿では,Reddit から現在地にある反音声のデータセットを収集するプロセスを提案する。
提案するデータセットとフレームワークを用いて,大規模言語モデルを用いて,談話理論に基づいて文脈的に接地した対音声を生成することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T23:20:17Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [59.54465462717297]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Understanding Counterspeech for Online Harm Mitigation [12.104301755723542]
Counterspeechは、憎悪の犯人に挑戦し、虐待の標的への支援を示すことによって、憎悪の言葉に対する直接の反論を提供する。
コンテンツモデレーションやデプラットフォームといった、より論争的な手段に代わる、有望な代替手段を提供する。
本稿では,社会科学における反音声研究を体系的にレビューし,自動対音声生成における方法論と知見をコンピュータ科学の取り組みと比較する。
論文 参考訳(メタデータ) (2023-07-01T20:54:01Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Generate, Prune, Select: A Pipeline for Counterspeech Generation against
Online Hate Speech [9.49544185939481]
オフザシェルフ自然言語生成(NLG)法は, 日常的, 反復的, 安全な応答を生成する点で制限されている。
本稿では,多様性と妥当性を効果的に向上する3モジュールパイプラインを設計する。
提案したパイプラインは,まず多様性を促進するために生成モデルを用いて様々な反音声候補を生成し,次にBERTモデルを用いて非文法的候補をフィルタリングし,最後に最も関連性の高い反音声応答を選択する。
論文 参考訳(メタデータ) (2021-06-03T06:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。