論文の概要: Improving Dialog Safety using Socially Aware Contrastive Learning
- arxiv url: http://arxiv.org/abs/2402.00446v1
- Date: Thu, 1 Feb 2024 09:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 15:48:17.082020
- Title: Improving Dialog Safety using Socially Aware Contrastive Learning
- Title(参考訳): ソーシャル・アウェア・コントラスト学習による対話の安全性向上
- Authors: Souvik Das, Rohini K. Srihari
- Abstract要約: 対人・カジュアル・ダイアログの文脈における社会性について検討する。
これらの問題に対処するための2段階の微調整プロセスを提案する。
私たちは、Moral Integrity Corpus(MIC)やProsocialDialogといったデータセットを活用することで、社会行動を統合するベースモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 8.503001932363704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art conversational AI systems raise concerns due to their
potential risks of generating unsafe, toxic, unethical, or dangerous content.
Previous works have developed datasets to teach conversational agents the
appropriate social paradigms to respond effectively to specifically designed
hazardous content. However, models trained on these adversarial datasets still
struggle to recognize subtle unsafe situations that appear naturally in
conversations or introduce an inappropriate response in a casual context. To
understand the extent of this problem, we study prosociality in both
adversarial and casual dialog contexts and audit the response quality of
general-purpose language models in terms of propensity to produce unsafe
content. We propose a dual-step fine-tuning process to address these issues
using a socially aware n-pair contrastive loss. Subsequently, we train a base
model that integrates prosocial behavior by leveraging datasets like Moral
Integrity Corpus (MIC) and ProsocialDialog. Experimental results on several
dialog datasets demonstrate the effectiveness of our approach in generating
socially appropriate responses.
- Abstract(参考訳): 最先端の会話型AIシステムは、安全でない、有害な、非倫理的、あるいは危険なコンテンツを発生させる可能性のあるリスクを懸念している。
従来の研究は、特定のデザインされた有害コンテンツに効果的に対応する適切な社会的パラダイムを会話エージェントに教えるデータセットを開発した。
しかし、これらの敵対的データセットでトレーニングされたモデルは、それでも会話に自然に現れる微妙な不安全な状況を認識したり、カジュアルな文脈で不適切な応答を導入するのに苦労している。
この問題の範囲を理解するために,対人関係とカジュアルな対話の文脈における非社会性を調査し,汎用言語モデルの応答品質を,安全でないコンテンツを生成する傾向の観点から監査する。
社会的に認識されたn対の相対的損失を用いて、これらの問題に対処するための2段階の微調整プロセスを提案する。
その後、Moral Integrity Corpus(MIC)やProsocialDialogといったデータセットを活用して、社会行動を統合するベースモデルをトレーニングする。
いくつかのダイアログデータセットにおける実験結果は、社会的に適切な応答を生成するためのアプローチの有効性を示している。
関連論文リスト
- Scalable Frame-based Construction of Sociocultural NormBases for Socially-Aware Dialogues [66.69453609603875]
社会文化的規範は、社会的相互作用における個人的行為の指針となる。
大規模言語モデル(LLM)を用いた社会文化的ノルム(SCN)ベース構築のためのスケーラブルなアプローチを提案する。
我々は、包括的で広くアクセス可能な中国社会文化ノルムベースを構築した。
論文 参考訳(メタデータ) (2024-10-04T00:08:46Z) - Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive
Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。
提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T05:16:52Z) - A Benchmark for Understanding Dialogue Safety in Mental Health Support [15.22008156903607]
本稿では,支援者に対する肯定的な影響を優先する理論的かつ現実的な分類法を開発することを目的とする。
我々は、BERTベース、RoBERTa-large、ChatGPTなど、人気のある言語モデルを用いてデータセットを分析する。
開発されたデータセットと研究結果は、メンタルヘルスサポートにおける対話安全性の研究を進めるための貴重なベンチマークとなる。
論文 参考訳(メタデータ) (2023-07-31T07:33:16Z) - Using In-Context Learning to Improve Dialogue Safety [45.303005593685036]
チャットボットからの応答のバイアスや毒性を低減するための検索手法について検討する。
コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。
本手法は,トレーニングを必要とせず,強いベースラインと競合する。
論文 参考訳(メタデータ) (2023-02-02T04:46:03Z) - ProsocialDialog: A Prosocial Backbone for Conversational Agents [104.92776607564583]
ProsocialDialogは、対話エージェントに社会規範に従って問題コンテンツに応答するように教える最初の大規模対話データセットである。
ProsocialDialogは、人間とAIのコラボレーションフレームワークで作られ、58Kの対話と331Kの発話、160KのRoT、および497Kの対話安全ラベルで構成されている。
本データセットでは,対話型安全性検出モジュールであるCanaryを導入し,会話コンテキストを指定したRoTを生成するとともに,社会的にインフォームドされた対話エージェントであるProstを導入する。
論文 参考訳(メタデータ) (2022-05-25T11:48:47Z) - Seamlessly Integrating Factual Information and Social Content with
Persuasive Dialogue [48.75221685739286]
本稿では,事実情報とソーシャルコンテンツをシームレスに説得的対話に統合する,新しいモジュール型対話システムフレームワークを提案する。
我々のフレームワークは、社会的内容とタスク内容が混在するあらゆる対話タスクに一般化可能である。
論文 参考訳(メタデータ) (2022-03-15T05:38:34Z) - On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark [42.322782754346406]
本研究では,人間とロボットの対話に特有の不安全行動の把握を目的とした対話安全のための分類法を提案する。
DiaSafetyは6つの安全でないカテゴリのデータセットで、リッチなコンテキストに敏感なアンセーフな例をコンパイルします。
実験により、既存の発話レベルの安全ツールが我々のデータセットで破滅的に失敗することが示された。
論文 参考訳(メタデータ) (2021-10-16T04:17:12Z) - SaFeRDialogues: Taking Feedback Gracefully after Conversational Safety
Failures [9.38317687250036]
この研究は、安全障害に関するフィードバックに対する優雅な応答のタスクとデータセットであるSaFeRDialoguesを提案する。
安全障害を示す10k対話のデータセットを収集し,フィードバックの合図とフィードバックの認識を行う。
このデータセットの微調整が、人間のレイパーが市民の会話に繋がる可能性がかなり高いと判断する会話をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-14T16:41:25Z) - Counterfactual Off-Policy Training for Neural Response Generation [94.76649147381232]
本稿では,反実的推論による潜在的応答の探索を提案する。
対人学習の枠組みの下での対物反応の訓練は、潜在的応答空間の高逆領域を探索するのに役立つ。
DailyDialogデータセットに関する実証的研究は、我々のアプローチがHREDモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T22:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。