論文の概要: A Reinforcement Learning-based Offensive semantics Censorship System for
Chatbots
- arxiv url: http://arxiv.org/abs/2207.10569v1
- Date: Wed, 13 Jul 2022 10:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-24 11:38:49.782233
- Title: A Reinforcement Learning-based Offensive semantics Censorship System for
Chatbots
- Title(参考訳): 強化学習に基づくチャットボットの攻撃的セマンティクス検閲システム
- Authors: Shaokang Cai, Dezhi Han, Zibin Zheng, Dun Li and NoelCrespi
- Abstract要約: 攻撃的セマンティクス検閲モデルは、攻撃的セマンティクス検閲モデルとセマンティクス浄化モデルという2つの部分から構成される。
攻撃的セマンティクスのレビューは、ユーザ入力文のコンテキストを組み合わせて、攻撃的セマンティクスの急速な進化を検出する。
セマンティクス浄化モデルは、初期のバージョンにロールバックするのではなく、学習アルゴリズムによって学習された攻撃的な応答を強化する。
- 参考スコア(独自算出の注目度): 16.637383887459738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of artificial intelligence (AI) technology has enabled
large-scale AI applications to land in the market and practice. However, while
AI technology has brought many conveniences to people in the productization
process, it has also exposed many security issues. Especially, attacks against
online learning vulnerabilities of chatbots occur frequently. Therefore, this
paper proposes a semantics censorship chatbot system based on reinforcement
learning, which is mainly composed of two parts: the Offensive semantics
censorship model and the semantics purification model. Offensive semantics
review can combine the context of user input sentences to detect the rapid
evolution of Offensive semantics and respond to Offensive semantics responses.
The semantics purification model For the case of chatting robot models, it has
been contaminated by large numbers of offensive semantics, by strengthening the
offensive reply learned by the learning algorithm, rather than rolling back to
the early versions. In addition, by integrating a once-through learning
approach, the speed of semantics purification is accelerated while reducing the
impact on the quality of replies. The experimental results show that our
proposed approach reduces the probability of the chat model generating
offensive replies and that the integration of the few-shot learning algorithm
improves the training speed rapidly while effectively slowing down the decline
in BLEU values.
- Abstract(参考訳): 人工知能(AI)技術の急速な発展により、大規模なAIアプリケーションが市場に進出し、実践することが可能になった。
しかし、AI技術は製品化プロセスの人々に多くの利便性をもたらしてきたが、多くのセキュリティ問題も露呈している。
特にチャットボットのオンライン学習脆弱性に対する攻撃が頻発する。
そこで本研究では,主に攻撃的セマンティクス検閲モデルとセマンティクス浄化モデルという2つの部分から構成される強化学習に基づくセマンティクス検閲チャットボットシステムを提案する。
offensive semantics reviewは、ユーザ入力文のコンテキストを組み合わせることで、攻撃的セマンティクスの急速な進化を検出し、攻撃的セマンティクス応答に対応することができる。
セマンティクス浄化モデル チャットロボットモデルの場合、初期のバージョンにロールバックするのではなく、学習アルゴリズムが学習した攻撃的応答を強化することで、多数の攻撃的セマンティクスによって汚染されている。
さらに、一度通訳学習アプローチを統合することにより、応答の質への影響を低減しつつ、セマンティックス浄化のスピードを加速する。
実験の結果,提案手法はチャットモデルの攻撃的応答を発生させる確率を低減し,マイズショット学習アルゴリズムの統合は学習速度を高速に向上させ,ブレウ値の低下を効果的に抑制することを示した。
関連論文リスト
- Deceiving Question-Answering Models: A Hybrid Word-Level Adversarial Approach [11.817276791266284]
本稿では,QAモデルを騙す新しい単語レベル対逆戦略であるQA-Attackを紹介する。
我々のアテンションベースの攻撃は、特定の単語を識別・ターゲットするために、カスタマイズされたアテンション機構と削除ランキング戦略を利用する。
同義語を慎重に選択し置換し、文法的整合性を保ちながら、間違った反応を生み出すためにモデルを誤解させる。
論文 参考訳(メタデータ) (2024-11-12T23:54:58Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Analysis of the User Perception of Chatbots in Education Using A Partial
Least Squares Structural Equation Modeling Approach [0.0]
オプティミズム、イノベーティブネス、不快感、不安、透明性、倫理、相互作用、エンゲージメント、正確さといった主要な行動関連側面について研究した。
その結果、最適性と革新性は、知覚的使用覚(PEOU)と知覚的有用性(PU)に正の相関があることが判明した。
論文 参考訳(メタデータ) (2023-11-07T00:44:56Z) - Beyond Traditional Teaching: The Potential of Large Language Models and
Chatbots in Graduate Engineering Education [0.0]
本稿では,大規模言語モデル(LLM)とチャットボットを大学院工学教育に統合する可能性について検討する。
コース資料から質問バンクを作成し、正確で洞察に富んだ回答を提供するボットの能力を評価する。
数学的な問題解決やコード解釈のためにWolfram Alphaのような強力なプラグインが、ボットの機能を大幅に拡張できることを示す。
論文 参考訳(メタデータ) (2023-09-09T13:37:22Z) - Cognitive Semantic Communication Systems Driven by Knowledge Graph:
Principle, Implementation, and Performance Evaluation [74.38561925376996]
単一ユーザと複数ユーザのコミュニケーションシナリオに対して,認知意味コミュニケーションフレームワークが2つ提案されている。
知識グラフから推論規則をマイニングすることにより,効果的な意味補正アルゴリズムを提案する。
マルチユーザ認知型セマンティックコミュニケーションシステムにおいて,異なるユーザのメッセージを識別するために,メッセージ復元アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:01:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - An Adversarially-Learned Turing Test for Dialog Generation Models [45.991035017908594]
本研究では,人間による応答から機械生成応答を識別する頑健なモデルであるATTを学習するための対人訓練手法を提案する。
従来の摂動に基づく手法とは対照的に,我々の判別器は,制限のない多種多様な対向例を反復的に生成することによって訓練されている。
識別器は,DialoGPTやGPT-3などの強力な攻撃者に対して高い精度を示す。
論文 参考訳(メタデータ) (2021-04-16T17:13:14Z) - Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。
ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文 参考訳(メタデータ) (2020-10-11T08:27:07Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。