論文の概要: Towards Effective Counter-Responses: Aligning Human Preferences with Strategies to Combat Online Trolling
- arxiv url: http://arxiv.org/abs/2410.04164v1
- Date: Sat, 5 Oct 2024 14:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 13:51:18.577523
- Title: Towards Effective Counter-Responses: Aligning Human Preferences with Strategies to Combat Online Trolling
- Title(参考訳): 効果的なカウンタ対応に向けて:オンライントラベリングに対処するための戦略による人間の選好の調整
- Authors: Huije Lee, Hoyun Song, Jisu Shin, Sukmin Cho, SeungYoon Han, Jong C. Park,
- Abstract要約: 本研究では,異なる種類のトロリング行動に合わせた戦略を人間が好んでいるかを検討する。
本稿では,適切なRSを推奨することでトロルに対する反応答を生成する手法を提案する。
実験の結果,提案手法は建設的議論をガイドし,トロルの負の効果を低減させることを示した。
- 参考スコア(独自算出の注目度): 9.598920004159696
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Trolling in online communities typically involves disruptive behaviors such as provoking anger and manipulating discussions, leading to a polarized atmosphere and emotional distress. Robust moderation is essential for mitigating these negative impacts and maintaining a healthy and constructive community atmosphere. However, effectively addressing trolls is difficult because their behaviors vary widely and require different response strategies (RSs) to counter them. This diversity makes it challenging to choose an appropriate RS for each specific situation. To address this challenge, our research investigates whether humans have preferred strategies tailored to different types of trolling behaviors. Our findings reveal a correlation between the types of trolling encountered and the preferred RS. In this paper, we introduce a methodology for generating counter-responses to trolls by recommending appropriate RSs, supported by a dataset aligning these strategies with human preferences across various troll contexts. The experimental results demonstrate that our proposed approach guides constructive discussion and reduces the negative effects of trolls, thereby enhancing the online community environment.
- Abstract(参考訳): オンラインコミュニティでのトロールは通常、怒りを引き起こすことや議論を操作することのような破壊的な行動を伴い、偏極化した雰囲気と感情的な苦悩をもたらす。
これらのネガティブな影響を緩和し、健全で建設的なコミュニティ雰囲気を維持するためには、ロバストなモデレーションが不可欠である。
しかしながら、トロルを効果的に扱うことは、その振る舞いが広く変化し、それに対応するために異なる応答戦略(RS)を必要とするため、困難である。
この多様性は、特定の状況ごとに適切なRSを選択することを困難にしている。
この課題に対処するために、我々は人間が様々な種類のトロリング行動に合わせた戦略を好んでいるかどうかを調査した。
以上の結果より, トロリングの種類と好ましいRSの相関が示唆された。
本稿では,適切なRSを推奨することでトロルに対する反応答を生成する手法を提案する。
実験の結果,提案手法は建設的議論をガイドし,トロルのネガティブな影響を低減し,オンラインコミュニティ環境を向上することを示した。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable
Responses Created Through Human-Machine Collaboration [75.62448812759968]
このデータセットは、韓国の大規模データセットで、49kの機密性があり、42kの許容範囲と46kの非許容応答がある。
データセットは、実際のニュースの見出しに基づいて、HyperCLOVAを人道的に活用して構築された。
論文 参考訳(メタデータ) (2023-05-28T11:51:20Z) - Learning from data in the mixed adversarial non-adversarial case:
Finding the helpers and ignoring the trolls [28.903534969338015]
このような環境で堅牢な学習を行う方法について研究する。
安全性を学習する手法と有害言語を評価できるベンチマーク評価であるSafetyMixを導入する。
本稿では,実例でもユーザレベルでもトロルを識別する緩和学習アルゴリズムを提案し,分析する。
論文 参考訳(メタデータ) (2022-08-05T17:33:33Z) - ELF22: A Context-based Counter Trolling Dataset to Combat Internet
Trolls [0.23624125155742054]
本稿では,自動応答生成のための新しいデータセットを提案する。
特に,ラベル付き応答戦略を用いたトロルコメントと対応応答を含むペアワイズデータセットを構築した。
提案するデータセットに微調整したモデルでは,戦略制御文生成の性能が大幅に向上していることが実証された。
論文 参考訳(メタデータ) (2022-07-30T10:14:41Z) - PCL: Peer-Contrastive Learning with Diverse Augmentations for
Unsupervised Sentence Embeddings [69.87899694963251]
本稿では,多彩な拡張を伴う新しいピアコントラスト学習(PCL)を提案する。
PCLは、教師なし文の埋め込みのために、グループレベルで様々な対照的な正と負を構成する。
PCLはピア陽性のコントラストとピアネットワークの協調が可能である。
論文 参考訳(メタデータ) (2022-01-28T13:02:41Z) - Exposing Paid Opinion Manipulation Trolls [19.834000431578737]
機械学習を用いてウェブ上で有償トロルを見つける方法を示す。
本稿では,複数の異なる人々からトロルと呼ばれるユーザがそうである可能性が高いと仮定する。
さらに, (ii) と (iii) を区別するために訓練された分類器が, (iii) と (iii) を区別するために訓練された分類器が, (iii) と (iii) を区別する上でも極めて優れていることを示す。
論文 参考訳(メタデータ) (2021-09-26T11:40:14Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Advances and Challenges in Conversational Recommender Systems: A Survey [133.93908165922804]
現在の会話レコメンダーシステム(CRS)で使用されるテクニックの体系的なレビューを提供します。
CRS開発の主な課題を5つの方向にまとめます。
これらの研究の方向性は、情報検索(IR)、自然言語処理(NLP)、人間とコンピュータの相互作用(HCI)などの複数の研究分野を含みます。
論文 参考訳(メタデータ) (2021-01-23T08:53:15Z) - "Nice Try, Kiddo": Investigating Ad Hominems in Dialogue Responses [87.89632038677912]
アドホミン攻撃(Ad hominem attack)とは、ある人物が保持している位置ではなく、ある人物の特徴を狙う攻撃である。
本稿では,アノテートされたデータセットを作成し,英語のTwitter投稿に対する人文・対話応答を解析するシステムを構築する。
以上の結果から,1)ヒトとダイアロGPTの両方からの反応は,辺縁化コミュニティに関する議論においてより多くのアドホミンを含むこと,2)訓練データ中の異なる量のアドホミンがアドホミンの生成に影響を及ぼしうること,3)アドホミン化を減らすためのデコード技術に制約があることが示唆された。
論文 参考訳(メタデータ) (2020-10-24T07:37:49Z) - Towards control of opinion diversity by introducing zealots into a
polarised social group [7.9603223299524535]
偏極社会集団における意見の多様性に影響を与えるか、制御する方法を探究する。
我々は、ユーザーが二項意見を持ち、接続する他のものに基づいて信条を何度も更新する投票モデルを活用する。
平均的な意見を任意の目標値にシフトするために、Zealotを偏極ネットワークに注入する。
論文 参考訳(メタデータ) (2020-06-12T15:27:30Z) - Detecting Troll Behavior via Inverse Reinforcement Learning: A Case
Study of Russian Trolls in the 2016 US Election [8.332032237125897]
Inverse Reinforcement Learning (IRL) に基づくトロール行動の抽出とトロールアカウントの同定手法を提案する。
調査事例として、2016年アメリカ合衆国大統領選挙におけるロシアの介入疑惑の調査において、米国議会が特定したトロルアカウントについて考察する。
IRLに基づくアプローチでは,トロルアカウントを正確に検出することが可能である。
論文 参考訳(メタデータ) (2020-01-28T19:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。