論文の概要: GrounDial: Human-norm Grounded Safe Dialog Response Generation
- arxiv url: http://arxiv.org/abs/2402.08968v1
- Date: Wed, 14 Feb 2024 06:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:45:46.245260
- Title: GrounDial: Human-norm Grounded Safe Dialog Response Generation
- Title(参考訳): Groundial: ヒューマンノームな安全なダイアログ応答生成
- Authors: Siwon Kim, Shuyang Dai, Mohammad Kachuee, Shayan Ray, Tara Taghavi,
and Sungroh Yoon
- Abstract要約: 本稿では,コモンセンス社会ルールに対する応答を微調整を必要とせずに基礎づけることにより,応答安全性を実現するGrounDialを提案する。
In-context LearningとHuman-norm-guided Decoding of GrounDialのハイブリッドアプローチにより、追加のデータやチューニングなしに、応答を定量的かつ質的に安全にすることができる。
- 参考スコア(独自算出の注目度): 39.55597493155821
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current conversational AI systems based on large language models (LLMs) are
known to generate unsafe responses, agreeing to offensive user input or
including toxic content. Previous research aimed to alleviate the toxicity, by
fine-tuning LLM with manually annotated safe dialogue histories. However, the
dependency on additional tuning requires substantial costs. To remove the
dependency, we propose GrounDial, where response safety is achieved by
grounding responses to commonsense social rules without requiring fine-tuning.
A hybrid approach of in-context learning and human-norm-guided decoding of
GrounDial enables the response to be quantitatively and qualitatively safer
even without additional data or tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく現在の会話型AIシステムは、攻撃的なユーザ入力や有害なコンテンツを含む、安全でない応答を生成することが知られている。
従来の研究は、手動で注釈付けされた安全な対話履歴を持つLSMを微調整することで毒性を緩和することを目的としていた。
しかし、追加チューニングへの依存は相当なコストを必要とする。
そこで本研究では,コモンセンスの社会的ルールに対する応答を微調整を必要とせずにグルーピングすることで,応答の安全性を実現する基礎的手法を提案する。
in-context learning と human-norm-guided decoding のハイブリッドアプローチは、追加のデータやチューニングなしでも、応答を定量的かつ質的に安全にすることができる。
関連論文リスト
- Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Improving Dialog Safety using Socially Aware Contrastive Learning [8.503001932363704]
対人・カジュアル・ダイアログの文脈における社会性について検討する。
これらの問題に対処するための2段階の微調整プロセスを提案する。
私たちは、Moral Integrity Corpus(MIC)やProsocialDialogといったデータセットを活用することで、社会行動を統合するベースモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-01T09:24:33Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Learn What NOT to Learn: Towards Generative Safety in Chatbots [40.8106410437709]
正負の学習信号と負の学習信号の両方から学習することで一般化を高めるために、対照的な損失を生かした「LOT」(Learn NOT to)という新しいフレームワークを提案する。
LOTは毒性を最大4倍に減らし、ベースラインモデルに比べて4倍から6倍のエンゲージネスとフラエンシを達成している。
論文 参考訳(メタデータ) (2023-04-21T18:59:06Z) - Using In-Context Learning to Improve Dialogue Safety [45.303005593685036]
チャットボットからの応答のバイアスや毒性を低減するための検索手法について検討する。
コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。
本手法は,トレーニングを必要とせず,強いベースラインと競合する。
論文 参考訳(メタデータ) (2023-02-02T04:46:03Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z) - On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark [42.322782754346406]
本研究では,人間とロボットの対話に特有の不安全行動の把握を目的とした対話安全のための分類法を提案する。
DiaSafetyは6つの安全でないカテゴリのデータセットで、リッチなコンテキストに敏感なアンセーフな例をコンパイルします。
実験により、既存の発話レベルの安全ツールが我々のデータセットで破滅的に失敗することが示された。
論文 参考訳(メタデータ) (2021-10-16T04:17:12Z) - Saying No is An Art: Contextualized Fallback Responses for Unanswerable
Dialogue Queries [3.593955557310285]
ほとんどの対話システムは、ランク付けされた応答を生成するためのハイブリッドアプローチに依存している。
ユーザクエリに対して文脈的に認識された応答を生成するニューラルネットワークを設計する。
我々の単純なアプローチでは、依存関係解析のルールと、質問応答ペアの合成データに基づいて微調整されたテキストからテキストへの変換を行う。
論文 参考訳(メタデータ) (2020-12-03T12:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。