論文の概要: Effectively Detecting and Responding to Online Harassment with Large Language Models
- arxiv url: http://arxiv.org/abs/2512.14700v1
- Date: Fri, 28 Nov 2025 00:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.768304
- Title: Effectively Detecting and Responding to Online Harassment with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたオンラインハラスメントの検出と応答
- Authors: Pinxian Lu, Nimra Ishfaq, Emma Win, Morgan Rose, Sierra R Strickland, Candice L Biernesser, Jamie Zelazny, Munmun De Choudhury,
- Abstract要約: この研究は、Instagram上のプライベートメッセージにおけるオンラインハラスメントを特定するために、Large Language Modelsを使用している。
Instagramのメッセージデータセットで、オンラインハラスメントを特定するために、人間ラベルを付けます。
また,ヒトの反応とシミュレーション応答を比較することで,シミュレーション応答が本来のヒトの反応と比較して有用性に優れていることを示す。
- 参考スコア(独自算出の注目度): 8.203396008795462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online harassment has been a persistent issue in the online space. Predominantly, research focused on online harassment in public social media platforms, while less is placed on private messaging platforms. To address online harassment on one private messaging platform, Instagram, we leverage the capabilities of Large Language Models (LLMs). To achieve this, we recruited human labelers to identify online harassment in an Instagram messages dataset. Using the previous conversation as context, we utilize an LLM pipeline to conduct large-scale labeling on Instagram messages and evaluate its performance against human labels. Then, we use LLM to generate and evaluate simulated responses to online harassment messages. We find that the LLM labeling pipeline is capable of identifying online harassment in private messages. By comparing human responses and simulated responses, we also demonstrate that our simulated responses are superior in helpfulness compared to original human responses.
- Abstract(参考訳): オンラインハラスメントは、オンライン業界では絶え間ない問題だ。
幸いなことに、パブリックなソーシャルメディアプラットフォームにおけるオンラインハラスメントに焦点を当てた研究は、プライベートなメッセージングプラットフォームではそれほど多くない。
あるプライベートメッセージングプラットフォームであるInstagramでのオンラインハラスメントに対処するために、私たちはLarge Language Models(LLMs)の機能を活用しています。
これを実現するために、Instagramメッセージデータセットでオンラインハラスメントを特定するために、人間のラベルをリクルートしました。
従来の会話をコンテキストとして使用し、LLMパイプラインを使用して、Instagramメッセージに大規模ラベリングを行い、その性能を人間ラベルに対して評価する。
そして、LLMを用いて、オンラインハラスメントメッセージに対するシミュレーション応答を生成し、評価する。
LLMラベリングパイプラインは、プライベートメッセージにおけるオンラインハラスメントを識別できる。
また,ヒトの反応とシミュレーション応答を比較することで,シミュレーション応答が本来のヒトの反応と比較して有用性に優れていることを示す。
関連論文リスト
- Weapons of Online Harassment: Menacing and Profiling Users via Social Apps [11.031258159143329]
アプリレビューではしばしばハラスメントが書かれています。
私たちは300万以上のレビューと1,800以上のアプリからなるデータセットを構築しました。
私たちは、ハラスメントを許容する1,395のアプリを特定し、トップ48の開発者に対して、ユーザ報告されたハラスメントが最も高いことを通知しました。
論文 参考訳(メタデータ) (2025-11-12T21:58:39Z) - Automated Profile Inference with Language Model Agents [67.32226960040514]
自動プロファイル推論(Automatic Profile Inference)と呼ばれる,LLMがオンラインの偽名にもたらす新たな脅威について検討する。
相手は、LDMに対して、疑似プラットフォーム上で公開されているユーザアクティビティから、機密性の高い個人属性を自動的に取り除き、抽出するように指示することができる。
実世界のシナリオにおけるこのような脅威の可能性を評価するために,AutoProfilerという自動プロファイリングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T13:05:17Z) - Assessing AI vs Human-Authored Spear Phishing SMS Attacks: An Empirical Study [1.099532646524593]
本稿では,GPT-4と人文作家が作成したSMSフィッシング(SMSフィッシング)メッセージの有効性について検討する。
実験では、スピアフィッシングメッセージのランク付けと質的なフィードバックの提供、どのメッセージが人間かAIが生成したかを推測した。
結果は、LLM生成メッセージは、人間、特に仕事関連のメッセージよりも説得力が高いと認識されることが多いことを示している。
論文 参考訳(メタデータ) (2024-06-18T20:47:16Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - Multi-step Jailbreaking Privacy Attacks on ChatGPT [47.10284364632862]
我々は,OpenAI の ChatGPT と ChatGPT によって強化された New Bing のプライバシー上の脅威について検討した。
我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文 参考訳(メタデータ) (2023-04-11T13:05:04Z) - Online Harassment of Japanese Celebrities and Influencers [0.0]
有名人(セレブやインフルエンサーなど)は毎日オンラインで嫌がらせを受けている。
オンラインハラスメントは彼らを精神的に妨げ、社会に悪影響を及ぼす。
オンラインハラスメントの被害者、感情的負傷、および犯罪者に対する行動について、日本の著名人を対象に調査を行った。
論文 参考訳(メタデータ) (2022-10-14T07:51:54Z) - Detecting Harmful Online Conversational Content towards LGBTQIA+
Individuals [30.03410762695714]
この研究は現実世界のデータセットを導入し、有害なオンライン会話コンテンツの研究と理解を可能にします。
2つのベースライン機械学習モデルと、事前訓練された3つの大規模言語モデルを実装した。
以上の結果から,オンライン対LGBTQIA+会話コンテンツ検出タスクにおいて,大規模言語モデルが非常に有望な性能が得られることが確認された。
論文 参考訳(メタデータ) (2022-06-15T20:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。