論文の概要: Improving Interaction Quality Estimation with BiLSTMs and the Impact on
Dialogue Policy Learning
- arxiv url: http://arxiv.org/abs/2001.07615v1
- Date: Tue, 21 Jan 2020 15:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 23:18:24.632957
- Title: Improving Interaction Quality Estimation with BiLSTMs and the Impact on
Dialogue Policy Learning
- Title(参考訳): BiLSTMによるインタラクション品質評価の改善と対話政策学習への影響
- Authors: Stefan Ultes
- Abstract要約: 本稿では,ユーザ満足度推定に基づく新たな報酬を提案する。
時間的依存を暗黙的に学習しながら、過去の推定値よりも優れていることを示す。
このモデルを適用すると、推定された満足度が高く、タスクの成功率に類似し、ノイズに対するロバスト性が高いことが示される。
- 参考スコア(独自算出の注目度): 0.6538911223040175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning suitable and well-performing dialogue behaviour in statistical
spoken dialogue systems has been in the focus of research for many years. While
most work which is based on reinforcement learning employs an objective measure
like task success for modelling the reward signal, we use a reward based on
user satisfaction estimation. We propose a novel estimator and show that it
outperforms all previous estimators while learning temporal dependencies
implicitly. Furthermore, we apply this novel user satisfaction estimation model
live in simulated experiments where the satisfaction estimation model is
trained on one domain and applied in many other domains which cover a similar
task. We show that applying this model results in higher estimated
satisfaction, similar task success rates and a higher robustness to noise.
- Abstract(参考訳): 統計的対話システムにおける適切な対話行動の学習は,長年にわたって研究の対象となっている。
強化学習に基づくほとんどの作業では,報酬信号のモデル化にタスク成功などの客観的尺度が用いられるが,ユーザの満足度推定に基づく報酬を用いる。
我々は,新しい推定器を提案し,時間的依存関係を暗黙的に学習しながら,従来の推定器よりも優れていることを示す。
さらに,この新たなユーザ満足度推定モデルは,ユーザ満足度推定モデルを1つの領域で訓練し,同様のタスクをカバーする多くの領域に適用するシミュレーション実験に応用する。
このモデルを適用すると,評価満足度,タスク成功率,雑音に対するロバスト性が向上する。
関連論文リスト
- CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - MultiPA: A Multi-task Speech Pronunciation Assessment Model for Open Response Scenarios [26.852744399985475]
発音アセスメントモデルにより、ユーザーは実生活のコミュニケーションと同様の方法で言語スキルを実践することができる。
オープン応答に対する文レベルの精度, 流布度, 韻律, 単語レベルの精度評価を提供するマルチタスク発音評価モデルであるMultiPAを提案する。
論文 参考訳(メタデータ) (2023-08-24T01:24:09Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Modeling User Satisfaction Dynamics in Dialogue via Hawkes Process [17.477718698071424]
本稿では,ターン間のユーザ満足度をイベントシーケンスとして扱う新しい推定器を提案し,このシーケンスのダイナミクスを効果的にモデル化するためにホークスプロセスを用いる。
4つのベンチマーク対話データセットによる実験結果から、ASAPは最先端のベースライン推定器を大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-05-21T23:04:14Z) - An Information-Theoretic Approach for Estimating Scenario Generalization
in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。
インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。
提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文 参考訳(メタデータ) (2022-11-02T01:39:30Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Is the User Enjoying the Conversation? A Case Study on the Impact on the
Reward Function [0.0]
会話中のユーザの満足度を推定するために,分散意味表現学習を用いたディープニューラルネットワークを採用する。
提案する階層ネットワークが最先端品質推定器を上回っていることを示す。
部分可観測マルコフ決定プロセスの報酬関数を推論するためにこれらのネットワークを適用すると、タスクの成功率が大幅に向上します。
論文 参考訳(メタデータ) (2021-01-13T11:13:07Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Sample-Efficient Model-based Actor-Critic for an Interactive Dialogue
Task [27.896714528986855]
対話型対話タスクのためのモデルに基づく強化学習を提案する。
一般的なアクター批判的手法に基づいて構築し、学習エージェントに学習を促す環境モデルとプランナーを追加します。
この結果から,対話型タスクを模倣したシミュレーションでは,一般的なモデルフリーアルゴリズムのベースラインに比べて,70倍のサンプルを必要とすることがわかった。
論文 参考訳(メタデータ) (2020-04-28T17:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。