論文の概要: Recipes for Safety in Open-domain Chatbots
- arxiv url: http://arxiv.org/abs/2010.07079v3
- Date: Wed, 4 Aug 2021 21:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:25:13.256352
- Title: Recipes for Safety in Open-domain Chatbots
- Title(参考訳): オープンドメインチャットボットにおける安全対策
- Authors: Jing Xu, Da Ju, Margaret Li, Y-Lan Boureau, Jason Weston, Emily Dinan
- Abstract要約: より安全なモデルのトレーニングと評価のための新しいHuman-and-in-the-loopフレームワークを提案する。
我々はこれらの手法を比較して実験を行い、新しい手法は自動評価や人的評価によって測定された既存のモデルよりも安全であることがわかった。
次に、モデルの障害ケースを分析して、この作業の限界について論じます。
- 参考スコア(独自算出の注目度): 32.31067267979087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models trained on large unlabeled corpora of human interactions will learn
patterns and mimic behaviors therein, which include offensive or otherwise
toxic behavior and unwanted biases. We investigate a variety of methods to
mitigate these issues in the context of open-domain generative dialogue models.
We introduce a new human-and-model-in-the-loop framework for both training
safer models and for evaluating them, as well as a novel method to distill
safety considerations inside generative models without the use of an external
classifier at deployment time. We conduct experiments comparing these methods
and find our new techniques are (i) safer than existing models as measured by
automatic and human evaluations while (ii) maintaining usability metrics such
as engagingness relative to the state of the art. We then discuss the
limitations of this work by analyzing failure cases of our models.
- Abstract(参考訳): 大きなラベルのない人間の相互作用のコーパスで訓練されたモデルは、パターンを学習し、攻撃的またはその他の有害な行動や望ましくない偏見を含む行動の模倣を行う。
オープンドメイン生成対話モデルの文脈において,これらの問題を緩和するための様々な方法を検討する。
本稿では,より安全なモデルのトレーニングと評価を行うための新しいHuman-and-in-the-loopフレームワークと,外部分類器を使わずに生成モデル内の安全性を考慮した新しい手法を提案する。
これらの手法の比較実験を行い、新しい手法を見つける。
(i)自動評価・人間評価による既存モデルより安全である
(ii)芸術の状況に対するエンゲージメントなどのユーザビリティの指標を維持すること。
次に,モデルの障害事例を分析することで,この作業の限界について論じる。
関連論文リスト
- Science based AI model certification for new operational environments with application in traffic state estimation [1.2186759689780324]
さまざまなエンジニアリング領域における人工知能(AI)の役割の拡大は、AIモデルを新たな運用環境にデプロイする際の課題を強調している。
本稿では,新しい運用環境における事前学習型データ駆動モデルの適用可能性を評価するための,科学ベースの認証手法を提案する。
論文 参考訳(メタデータ) (2024-05-13T16:28:00Z) - Operationalizing Specifications, In Addition to Test Sets for Evaluating
Constrained Generative Models [17.914521288548844]
生成モデルのスケールは、評価自体が実行される抽象レベルを高めるために利用することができると論じる。
我々の勧告は、生成品質を評価するための強力な手段として仕様を活用することに基づいている。
論文 参考訳(メタデータ) (2022-11-19T06:39:43Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Regularizers for Single-step Adversarial Training [49.65499307547198]
本稿では,1ステップの対数学習手法を用いて,ロバストモデル学習を支援する3種類の正則化器を提案する。
正規化器は、ロバストモデルと擬ロバストモデルとを区別する特性を利用することにより、勾配マスキングの効果を緩和する。
論文 参考訳(メタデータ) (2020-02-03T09:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。