論文の概要: "Nice Try, Kiddo": Investigating Ad Hominems in Dialogue Responses
- arxiv url: http://arxiv.org/abs/2010.12820v2
- Date: Mon, 12 Apr 2021 17:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:02:55.890233
- Title: "Nice Try, Kiddo": Investigating Ad Hominems in Dialogue Responses
- Title(参考訳): Nice Try, Kiddo:対話応答におけるアドホミネムの検討
- Authors: Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, Nanyun Peng
- Abstract要約: アドホミン攻撃(Ad hominem attack)とは、ある人物が保持している位置ではなく、ある人物の特徴を狙う攻撃である。
本稿では,アノテートされたデータセットを作成し,英語のTwitter投稿に対する人文・対話応答を解析するシステムを構築する。
以上の結果から,1)ヒトとダイアロGPTの両方からの反応は,辺縁化コミュニティに関する議論においてより多くのアドホミンを含むこと,2)訓練データ中の異なる量のアドホミンがアドホミンの生成に影響を及ぼしうること,3)アドホミン化を減らすためのデコード技術に制約があることが示唆された。
- 参考スコア(独自算出の注目度): 87.89632038677912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ad hominem attacks are those that target some feature of a person's character
instead of the position the person is maintaining. These attacks are harmful
because they propagate implicit biases and diminish a person's credibility.
Since dialogue systems respond directly to user input, it is important to study
ad hominems in dialogue responses. To this end, we propose categories of ad
hominems, compose an annotated dataset, and build a classifier to analyze human
and dialogue system responses to English Twitter posts. We specifically compare
responses to Twitter topics about marginalized communities (#BlackLivesMatter,
#MeToo) versus other topics (#Vegan, #WFH), because the abusive language of ad
hominems could further amplify the skew of power away from marginalized
populations. Furthermore, we propose a constrained decoding technique that uses
salient $n$-gram similarity as a soft constraint for top-$k$ sampling to reduce
the amount of ad hominems generated. Our results indicate that 1) responses
from both humans and DialoGPT contain more ad hominems for discussions around
marginalized communities, 2) different quantities of ad hominems in the
training data can influence the likelihood of generating ad hominems, and 3) we
can use constrained decoding techniques to reduce ad hominems in generated
dialogue responses.
- Abstract(参考訳): アドホミネム攻撃(ad hominem attack)は、ある人物が維持している位置ではなく、ある人物の特徴を標的とする攻撃である。
これらの攻撃は、暗黙の偏見を広め、人の信頼性を低下させるため、有害である。
対話システムは直接ユーザ入力に応答するので,対話応答におけるアドホミンの研究が重要である。
この目的のために,アドホミンのカテゴリを提案し,注釈付きデータセットを作成し,英語twitter投稿に対する人間および対話システム応答を分析する分類器を構築する。
私たちは、マージン化されたコミュニティ(#blacklivesmatter、#metoo)に関するtwitterのトピックと、他のトピック(#vegan、#wfh)との反応を特に比較します。
さらに,トップ$kのサンプリングのためのソフト制約として,高い$n$-gramの類似性を利用する制約付き復号法を提案する。
私たちの結果は
1)人間とダイアロGPTの双方からの反応は,辺縁化コミュニティに関する議論において,より多くのアドホマイネムを含んでいる。
2 訓練データにおけるアドホミネムの量の違いは、アドホミネムの発生可能性に影響を与えることができる。
3) 制約付き復号法を用いて, 生成した対話応答のアドホミネムを低減する。
関連論文リスト
- Analyzing Toxicity in Deep Conversations: A Reddit Case Study [0.0]
この研究は、公開会話設定における毒性に関するユーザがどのように振る舞うかを理解するために、ツリーベースのアプローチを採用する。
Redditの8つのコミュニティから上位100件の投稿とコメントのセクションを収集し、100万件以上の回答を得た。
有毒なコメントは、その後の有毒なコメントがオンライン会話で生み出される可能性を高める。
論文 参考訳(メタデータ) (2024-04-11T16:10:44Z) - Consolidating Strategies for Countering Hate Speech Using Persuasive
Dialogues [3.8979646385036175]
オンライン会話におけるヘイトフルコメントに対する反論を生み出すためのコントロール可能な戦略について検討する。
自動評価と人的評価を用いて、流動的で議論的で論理的に健全な議論を生成する特徴の最適な組み合わせを決定する。
我々は,このような特徴を持つテキストを自動的に注釈付けするための計算モデルと,既存のヘイトスピーチコーパスの銀標準アノテートバージョンを共有した。
論文 参考訳(メタデータ) (2024-01-15T16:31:18Z) - Collective moderation of hate, toxicity, and extremity in online
discussions [1.114199733551736]
われわれはTwitter上で4年間に13万件以上の議論を交わした大規模なコーパスを分析した。
我々は、後続のつぶやきにおけるヘイトスピーチの確率に関係している可能性のある、さまざまな談話の次元を識別する。
事実によって必ずしも支持されない単純な意見を表現することは、その後の議論において最も憎悪に関係している。
論文 参考訳(メタデータ) (2023-03-01T09:35:26Z) - AutoReply: Detecting Nonsense in Dialogue Introspectively with
Discriminative Replies [71.62832112141913]
対話モデルは、不適切なメッセージを示す応答の確率を計算し、内観的に自分のメッセージの誤りを検出することができることを示す。
まず、手作りの返信は外交と同じくらい複雑なアプリケーションにおけるナンセンスを検出するタスクに有効であることを示す。
AutoReplyの生成した応答は手作りの応答よりも優れており、慎重に調整された大規模な教師付きモデルと同等に動作することがわかった。
論文 参考訳(メタデータ) (2022-11-22T22:31:34Z) - Robots-Dont-Cry: Understanding Falsely Anthropomorphic Utterances in
Dialog Systems [64.10696852552103]
非常に人為的な反応は、ユーザーが人間と対話していると考えることを不快に、あるいは暗黙的に騙すかもしれない。
9つの異なるデータソースからサンプリングした約900の2ターンダイアログの実現可能性に関する人間の評価を収集する。
論文 参考訳(メタデータ) (2022-10-22T12:10:44Z) - "Dummy Grandpa, do you know anything?": Identifying and Characterizing
Ad hominem Fallacy Usage in the Wild [7.022640250985622]
Ad hominem arguments はそのような誤認の最も効果的な形態の1つである。
2016年アメリカ合衆国大統領選挙以降、選挙議論の利用は大幅に増加した。
論文 参考訳(メタデータ) (2022-09-05T17:16:44Z) - Persua: A Visual Interactive System to Enhance the Persuasiveness of
Arguments in Online Discussion [52.49981085431061]
説得力のある議論を書く能力を高めることは、オンラインコミュニケーションの有効性と文明性に寄与する。
オンライン議論における議論の説得力向上を支援するツールの設計目標を4つ導き出した。
Persuaは対話型ビジュアルシステムであり、議論の説得力を高めるための説得戦略の例に基づくガイダンスを提供する。
論文 参考訳(メタデータ) (2022-04-16T08:07:53Z) - Just Say No: Analyzing the Stance of Neural Dialogue Generation in
Offensive Contexts [26.660268192685763]
ToxiChatは2000のRedditスレッドと、攻撃的な言語とスタンスでラベル付けされたモデルレスポンスからなる新しいデータセットです。
分析の結果、ユーザーの反応の42%が有毒なコメントに同意していることがわかった。
論文 参考訳(メタデータ) (2021-08-26T14:58:05Z) - Revealing Persona Biases in Dialogue Systems [64.96908171646808]
対話システムにおけるペルソナバイアスに関する最初の大規模研究について述べる。
我々は、異なる社会階級、性的指向、人種、性別のペルソナの分析を行う。
BlenderおよびDialoGPT対話システムの研究では、ペルソナの選択が生成された応答の害の程度に影響を与える可能性があることを示しています。
論文 参考訳(メタデータ) (2021-04-18T05:44:41Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。