論文の概要: Scalable and Robust Self-Learning for Skill Routing in Large-Scale
Conversational AI Systems
- arxiv url: http://arxiv.org/abs/2204.07135v1
- Date: Thu, 14 Apr 2022 17:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:53:35.538442
- Title: Scalable and Robust Self-Learning for Skill Routing in Large-Scale
Conversational AI Systems
- Title(参考訳): 大規模対話型AIシステムにおけるスキルルーティングのためのスケーラブルでロバストな自己学習
- Authors: Mohammad Kachuee, Jinseok Nam, Sarthak Ahuja, Jin-Myung Won, Sungjin
Lee
- Abstract要約: 最先端システムは、自然な会話を可能にするためにモデルベースのアプローチを使用する。
ルーティングの代替を探索するスケーラブルな自己学習手法を提案する。
- 参考スコア(独自算出の注目度): 13.705147776518421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skill routing is an important component in large-scale conversational
systems. In contrast to traditional rule-based skill routing, state-of-the-art
systems use a model-based approach to enable natural conversations. To provide
supervision signal required to train such models, ideas such as human
annotation, replication of a rule-based system, relabeling based on user
paraphrases, and bandit-based learning were suggested. However, these
approaches: (a) do not scale in terms of the number of skills and skill
on-boarding, (b) require a very costly expert annotation/rule-design, (c)
introduce risks in the user experience with each model update. In this paper,
we present a scalable self-learning approach to explore routing alternatives
without causing abrupt policy changes that break the user experience, learn
from the user interaction, and incrementally improve the routing via frequent
model refreshes. To enable such robust frequent model updates, we suggest a
simple and effective approach that ensures controlled policy updates for
individual domains, followed by an off-policy evaluation for making deployment
decisions without any need for lengthy A/B experimentation. We conduct various
offline and online A/B experiments on a commercial large-scale conversational
system to demonstrate the effectiveness of the proposed method in real-world
production settings.
- Abstract(参考訳): スキルルーティングは、大規模会話システムにおいて重要なコンポーネントである。
従来のルールベースのスキルルーティングとは対照的に、最先端システムは自然な会話を可能にするためにモデルベースのアプローチを使用する。
人間のアノテーション、ルールベースのシステムの複製、ユーザパラフレーズに基づく緩和、バンディットに基づく学習など、そのようなモデルを訓練するために必要な監視信号を提供する。
しかし これらのアプローチは
(a)乗務員の技能・技能の数の面ではスケールしない。
b)非常にコストのかかる専門家のアノテーション/ルール設計が必要です。
(c)各モデル更新において、ユーザエクスペリエンスにリスクを導入する。
本稿では,ユーザエクスペリエンスを損なうような突然のポリシー変更を起こさずに,ユーザインタラクションから学び,頻繁なモデル更新によるルーティングを漸進的に改善する,スケーラブルな自己学習手法を提案する。
このような堅牢な頻繁なモデル更新を可能にするために、我々は、各ドメインの制御されたポリシー更新を保証するためのシンプルで効果的なアプローチを提案し、その後、長いa/b実験を必要とせずにデプロイ決定を行うためのオフポリシー評価を行う。
実運用環境において提案手法の有効性を実証するため,大規模対話システム上でオフラインおよびオンラインA/B実験を行った。
関連論文リスト
- Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - Reformulating Conversational Recommender Systems as Tri-Phase Offline Policy Learning [5.453444582931813]
Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)
本稿では,Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)を紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:58:29Z) - Understanding the (Extra-)Ordinary: Validating Deep Model Decisions with Prototypical Concept-based Explanations [13.60538902487872]
本稿では, 実例的(地域的)かつクラス的(グローバル的)な意思決定戦略をプロトタイプを通じて伝達する, ポストホックなコンセプトベースXAIフレームワークを提案する。
我々は,3つのデータセットにまたがるアウト・オブ・ディストリビューション・サンプル,突発的なモデル行動,データ品質問題同定におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-28T10:53:26Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Online Matching: A Real-time Bandit System for Large-scale
Recommendations [23.954049092470548]
Online Matchingは、ユーザのアイテムに対する直接的なフィードバックをリアルタイムで学習する、スケーラブルなクローズドループバンディットシステムである。
Diag-LinUCBはLinUCBアルゴリズムの新たな拡張であり、スケーラブルでタイムリーな方法で帯域幅パラメータの分散更新を可能にする。
論文 参考訳(メタデータ) (2023-07-29T05:46:27Z) - Efficient Human-in-the-loop System for Guiding DNNs Attention [25.501443892795614]
本稿では,ユーザが指定した領域に対して,分類器の注意を対話的に誘導する,効率的なHuman-in-the-loopシステムを提案する。
注意誘導のための従来のアプローチでは、ピクセルレベルのアノテーションの準備が必要であり、インタラクティブシステムとして設計されていない。
論文 参考訳(メタデータ) (2022-06-13T09:04:32Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Model-Based Machine Learning for Communications [110.47840878388453]
モデルベースのアルゴリズムと機械学習をハイレベルな視点で組み合わせるための既存の戦略を見直します。
通信受信機の基本的なタスクの一つであるシンボル検出に注目する。
論文 参考訳(メタデータ) (2021-01-12T19:55:34Z) - Interactive Search Based on Deep Reinforcement Learning [4.353144350714567]
このプロジェクトは主にオフライントレーニングのための仮想ユーザ環境を確立する。
同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。
論文 参考訳(メタデータ) (2020-12-09T15:23:53Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。