論文の概要: Learning from data in the mixed adversarial non-adversarial case:
Finding the helpers and ignoring the trolls
- arxiv url: http://arxiv.org/abs/2208.03295v1
- Date: Fri, 5 Aug 2022 17:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:12:28.794678
- Title: Learning from data in the mixed adversarial non-adversarial case:
Finding the helpers and ignoring the trolls
- Title(参考訳): 混合敵対的非敵対的事例におけるデータからの学習:ヘルパーの発見とトロルの無視
- Authors: Da Ju, Jing Xu, Y-Lan Boureau, Jason Weston
- Abstract要約: このような環境で堅牢な学習を行う方法について研究する。
安全性を学習する手法と有害言語を評価できるベンチマーク評価であるSafetyMixを導入する。
本稿では,実例でもユーザレベルでもトロルを識別する緩和学習アルゴリズムを提案し,分析する。
- 参考スコア(独自算出の注目度): 28.903534969338015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The promise of interaction between intelligent conversational agents and
humans is that models can learn from such feedback in order to improve.
Unfortunately, such exchanges in the wild will not always involve human
utterances that are benign or of high quality, and will include a mixture of
engaged (helpers) and unengaged or even malicious users (trolls). In this work
we study how to perform robust learning in such an environment. We introduce a
benchmark evaluation, SafetyMix, which can evaluate methods that learn safe vs.
toxic language in a variety of adversarial settings to test their robustness.
We propose and analyze several mitigating learning algorithms that identify
trolls either at the example or at the user level. Our main finding is that
user-based methods, that take into account that troll users will exhibit
adversarial behavior across multiple examples, work best in a variety of
settings on our benchmark. We then test these methods in a further real-life
setting of conversations collected during deployment, with similar results.
- Abstract(参考訳): インテリジェントな会話エージェントと人間との相互作用の約束は、モデルがそのようなフィードバックから学び、改善することです。
残念なことに、このようなやりとりは必ずしも良心的あるいは高品質な人間の発声を伴わないため、エンゲージメント(helpers)と非エンゲージメント(unengaged)あるいは悪意のあるユーザ(trolls)の混在も伴う。
本研究では,このような環境で頑健な学習を行う方法について検討する。
そこで我々は, 安全性と有害な言語について, 様々な条件下で評価し, その堅牢性を検証できるベンチマーク評価, SafetyMixを提案する。
本稿では,実例でもユーザレベルでもトロルを識別する緩和学習アルゴリズムを提案し,分析する。
主な発見は、トロールユーザーが複数の例にまたがって敵対行動を示すことを考慮し、ベンチマーク上の様々な設定で最もうまく機能するユーザベースの手法である。
次にこれらのメソッドを、デプロイ中に収集された会話の、さらに実際の設定でテストします。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Boosting Feedback Efficiency of Interactive Reinforcement Learning by
Adaptive Learning from Scores [11.702616722462139]
本稿では,対話型強化学習のフィードバック効率を向上させるために,対の選好の代わりに人間が提供するスコアを利用する新しい手法を提案する。
提案手法は,相互選好学習法と比較して,フィードバックを少なくしながら,スコアから適応学習することで,最適に近いポリシーを効率的に学習できることを示す。
論文 参考訳(メタデータ) (2023-07-11T16:12:15Z) - Active Learning of Ordinal Embeddings: A User Study on Football Data [4.856635699699126]
人間は本来、未知の類似性関数を使用してラベル付けされていないデータセットのインスタンス間の距離を計測する。
この研究はディープ・メトリック・ラーニングを使用して、大規模なフットボールの軌跡データセットのアノテーションからユーザ定義の類似性関数を学習する。
論文 参考訳(メタデータ) (2022-07-26T07:55:23Z) - What makes you change your mind? An empirical investigation in online
group decision-making conversations [17.152995902615235]
我々は、何によって心が変わるかを検出する方法を検討する。
そこで我々は,ニューラルネットワークの分類や言語に依存しない変化点検出など,さまざまな手法を取り入れた。
これらの手法の評価は,タスクは自明なものではないが,学習とランクのトレーニングを併用した言語認識モデルを用いることが最善の方法であることを示している。
論文 参考訳(メタデータ) (2022-07-25T10:19:31Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Improved and Interpretable Deep Metric Learning via Attentive
Grouping [103.71992720794421]
グループ化は、様々な特徴の計算にディープ・メトリック・ラーニングでよく用いられてきた。
本稿では,任意のメトリクス学習フレームワークと柔軟に統合可能な,改良された解釈可能なグループ化手法を提案する。
論文 参考訳(メタデータ) (2020-11-17T19:08:24Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Let Me At Least Learn What You Really Like: Dealing With Noisy Humans
When Learning Preferences [0.76146285961466]
本稿では,予測出力値を用いて選好の学習を高速化する不確実性サンプリングの修正を提案する。
提案手法を不確実サンプリングベースラインと比較し,提案手法の各コンポーネントの有効性を検証するためのアブレーション試験を行った。
論文 参考訳(メタデータ) (2020-02-15T00:36:23Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。