論文の概要: $\textrm{WeaSuL}^{\pi}$: Weakly Supervised Dialogue Policy Learning:
Reward Estimation for Multi-turn Dialogue
- arxiv url: http://arxiv.org/abs/2108.01487v1
- Date: Sun, 1 Aug 2021 08:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 00:53:06.288707
- Title: $\textrm{WeaSuL}^{\pi}$: Weakly Supervised Dialogue Policy Learning:
Reward Estimation for Multi-turn Dialogue
- Title(参考訳): $\textrm{WeaSuL}^{\pi}$:Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue
- Authors: Anant Khandelwal
- Abstract要約: エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
- 参考スコア(独自算出の注目度): 17.663449579168297
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: An intelligent dialogue system in a multi-turn setting should not only
generate the responses which are of good quality, but it should also generate
the responses which can lead to long-term success of the dialogue. Although,
the current approaches improved the response quality, but they over-look the
training signals present in the dialogue data. We can leverage these signals to
generate the weakly supervised training data for learning dialog policy and
reward estimator, and make the policy take actions (generates responses) which
can foresee the future direction for a successful (rewarding) conversation. We
simulate the dialogue between an agent and a user (modelled similar to an agent
with supervised learning objective) to interact with each other. The agent uses
dynamic blocking to generate ranked diverse responses and
exploration-exploitation to select among the Top-K responses. Each simulated
state-action pair is evaluated (works as a weak annotation) with three quality
modules: Semantic Relevant, Semantic Coherence and Consistent Flow. Empirical
studies with two benchmarks indicate that our model can significantly
out-perform the response quality and lead to a successful conversation on both
automatic evaluation and human judgement.
- Abstract(参考訳): マルチターン設定におけるインテリジェントな対話システムは,高品質な応答を生成するだけでなく,対話の長期的成功につながる可能性のある応答を生成する必要がある。
しかし,現在のアプローチでは応答品質は向上したが,対話データに現れる訓練信号は見過ごされている。
これらの信号を利用して、弱い教師付きトレーニングデータを生成し、ダイアログポリシーと報奨推定器を学習し、成功(リワード)会話の今後の方向性を予測するためのアクション(応答の生成)を行う。
エージェントとユーザとの対話(教師付き学習目的のエージェントに似てモデル化された)をシミュレートし、互いに対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
それぞれの擬似状態-作用対は、セマンティック関連、セマンティックコヒーレンス、一貫性フローの3つの品質モジュールで評価される(弱いアノテーションとして機能する)。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、自動評価と人的判断の両方で会話を成功させることを示す。
関連論文リスト
- PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Improving a sequence-to-sequence nlp model using a reinforcement
learning policy algorithm [0.0]
対話生成の現在のニューラルネットワークモデルは、おしゃべりエージェントの回答を生成する上で非常に有望である。
しかし、彼らは発話を1度ずつ予測し、将来の結果に対する彼らの影響を無視している。
本研究は,対話の長期的成功に基づくニューラルな会話モデル構築に向けた予備的なステップを記念するものである。
論文 参考訳(メタデータ) (2022-12-28T22:46:57Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Automatic Curriculum Learning With Over-repetition Penalty for Dialogue
Policy Learning [8.744026064255337]
ACL-DQN(Automatic Curriculum Learning-based Deep Q-Network)という新しいフレームワークを提案し,自動カリキュラム学習のための対話方針を実現する。
教師モデルは、有意義な順序のカリキュラムを配置し、対話エージェントの学習進捗を監視して自動的に調整する。
実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-12-28T02:44:49Z) - Turn-level Dialog Evaluation with Dialog-level Weak Signals for
Bot-Human Hybrid Customer Service Systems [0.0]
インタラクションの間いつでも、顧客サービスコンタクトにおける成功や価値の複数の側面を定量化する機械学習アプローチを開発しました。
いくつかのアプリケーションにおいて、Amazonのカスタマーサービス品質がどのように改善されているかを示します。
論文 参考訳(メタデータ) (2020-10-25T19:36:23Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。