論文の概要: Just Say No: Analyzing the Stance of Neural Dialogue Generation in
Offensive Contexts
- arxiv url: http://arxiv.org/abs/2108.11830v1
- Date: Thu, 26 Aug 2021 14:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:06:58.273089
- Title: Just Say No: Analyzing the Stance of Neural Dialogue Generation in
Offensive Contexts
- Title(参考訳): Just say No: 攻撃的文脈におけるニューラルダイアログ生成のスタンスの分析
- Authors: Ashutosh Baheti, Maarten Sap, Alan Ritter, Mark Riedl
- Abstract要約: ToxiChatは2000のRedditスレッドと、攻撃的な言語とスタンスでラベル付けされたモデルレスポンスからなる新しいデータセットです。
分析の結果、ユーザーの反応の42%が有毒なコメントに同意していることがわかった。
- 参考スコア(独自算出の注目度): 26.660268192685763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue models trained on human conversations inadvertently learn to
generate offensive responses. Moreover, models can insult anyone by agreeing
with an offensive context. To understand the dynamics of contextually offensive
language, we study the stance of dialogue model responses in offensive Reddit
conversations. Specifically, we crowd-annotate ToxiChat, a new dataset of 2,000
Reddit threads and model responses labeled with offensive language and stance.
Our analysis reveals that 42% of user responses agree with toxic comments; 3x
their agreement with safe comments (13%). Pre-trained transformer-based
classifiers fine-tuned on our dataset achieve 0.71 F1 for offensive labels and
0.53 Macro-F1 for stance labels. Finally, we analyze some existing controllable
text generation (CTG) methods to mitigate the contextual offensive behavior of
dialogue models. Compared to the baseline, our best CTG model obtains a 19%
reduction in agreement with offensive context and 29% fewer offensive
responses. This highlights the need for future work to characterize and analyze
more forms of inappropriate behavior in dialogue models to help make them
safer. Our code and corpus are available at
https://github.com/abaheti95/ToxiChat .
- Abstract(参考訳): 人間の会話で訓練された対話モデルは、不注意に不快な反応を生み出すことを学ぶ。
さらにモデルは、攻撃的な文脈に同意することで、誰でも侮辱することができる。
文脈的攻撃的言語のダイナミクスを理解するために,攻撃的reddit会話における対話モデル応答のスタンスについて検討する。
具体的には、2000のRedditスレッドと、攻撃的な言語とスタンスでラベル付けされたモデルレスポンスのデータセットであるToxiChatをクラウドアノテートします。
分析の結果,ユーザの反応の42%が有害なコメントに同意しており,その3倍が安全コメント(13%)であることがわかった。
データセットに微調整されたプリトレーニングトランスベースの分類器では,攻撃ラベルが 0.71 f1,スタンスラベルが 0.53 macro-f1 となる。
最後に,既存の制御可能なテキスト生成(ctg)手法を分析し,対話モデルの文脈的攻撃行動の軽減を図る。
ベースラインと比較すると,最高のCTGモデルでは,攻撃的文脈と一致して19%,攻撃的応答が29%減少した。
これは、より安全な対話モデルにおける不適切な行動のより多くの形態を特徴付け、分析するための将来の作業の必要性を浮き彫りにしている。
私たちのコードとコーパスはhttps://github.com/abaheti95/ToxiChat で公開されています。
関連論文リスト
- Consolidating Strategies for Countering Hate Speech Using Persuasive
Dialogues [3.8979646385036175]
オンライン会話におけるヘイトフルコメントに対する反論を生み出すためのコントロール可能な戦略について検討する。
自動評価と人的評価を用いて、流動的で議論的で論理的に健全な議論を生成する特徴の最適な組み合わせを決定する。
我々は,このような特徴を持つテキストを自動的に注釈付けするための計算モデルと,既存のヘイトスピーチコーパスの銀標準アノテートバージョンを共有した。
論文 参考訳(メタデータ) (2024-01-15T16:31:18Z) - Learning From Free-Text Human Feedback -- Collect New Datasets Or Extend
Existing Ones? [57.16050211534735]
一般的な対話データセットにおける自由文フィードバックのタイプと頻度について検討する。
この結果から, エラータイプ, ユーザ応答タイプ, それらの関係性など, 調査したデータセットの構成に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-10-24T12:01:11Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - COBRA Frames: Contextual Reasoning about Effects and Harms of Offensive
Statements [30.1056760312051]
攻撃的あるいは偏りのある文の意図,反応,害を説明するための,最初の文脈対応形式であるCOBRAフレームを紹介する。
私たちは、マシン生成コンテキストと組み合わせた33kの潜在的攻撃的ステートメントのデータセットであるCOBRACORPUSを作成します。
文脈非依存モデルによる説明は文脈認識モデルよりはるかに悪いことが判明した。
論文 参考訳(メタデータ) (2023-06-03T02:47:24Z) - Prompting for a conversation: How to control a dialog model? [9.268682116424518]
ダイアログモデルは大量のテキストでトレーニングされるが、その応答はダイアログエージェントの望ましいスコープとスタイルに制限される必要がある。
前者を達成するために使用されるデータセットには後者と互換性のない言語が含まれているため、事前訓練されたダイアログモデルは、より小さなキュレートされたデータセットで微調整される。
本稿では,上記のトレードオフを緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-09-22T14:59:55Z) - APPDIA: A Discourse-aware Transformer-based Style Transfer Model for
Offensive Social Media Conversations [11.011242089340437]
われわれは、初めて公開され、パラレルなRedditコメントのコーパスと、社会言語学者によって注釈付けされたスタイル変換されたコメントをリリースする。
本稿では,Redditテキストにおける不快感を効果的に低減し,本来のテキストの意味を保ちつつ,最初の談話型スタイルトランスファーモデルを提案する。
論文 参考訳(メタデータ) (2022-09-17T00:50:24Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Zero-Shot Dialogue Disentanglement by Self-Supervised Entangled Response
Selection [79.37200787463917]
対話の切り離しは、スレッドへの長大かつ多人数の対話において、発話をグループ化することを目的としている。
これは談話分析や対話応答選択などの下流アプリケーションに有用である。
我々はまず,atextbfzero-shotダイアログ・ディアンタングメント・ソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-25T05:15:01Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。