論文の概要: Few-Shot Structured Policy Learning for Multi-Domain and Multi-Task
Dialogues
- arxiv url: http://arxiv.org/abs/2302.11199v1
- Date: Wed, 22 Feb 2023 08:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:59:25.039933
- Title: Few-Shot Structured Policy Learning for Multi-Domain and Multi-Task
Dialogues
- Title(参考訳): マルチドメイン・マルチタスク対話のためのFew-Shot Structured Policy Learning
- Authors: Thibault Cordier and Tanguy Urvoy and Fabrice Lefevre and Lina M.
Rojas-Barahona
- Abstract要約: グラフニューラルネットワーク(GNN)は、シミュレーション専門家から学ぶ際に、わずか50の対話で80%以上の成功率に達することで、顕著な優位性を示している。
我々は,対話フレームワークにおける人的データ,シミュレータ,自動評価器のギャップを埋めることに,今後の研究努力を集中させることを提案する。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning has been widely adopted to model dialogue managers in
task-oriented dialogues. However, the user simulator provided by
state-of-the-art dialogue frameworks are only rough approximations of human
behaviour. The ability to learn from a small number of human interactions is
hence crucial, especially on multi-domain and multi-task environments where the
action space is large. We therefore propose to use structured policies to
improve sample efficiency when learning on these kinds of environments. We also
evaluate the impact of learning from human vs simulated experts. Among the
different levels of structure that we tested, the graph neural networks (GNNs)
show a remarkable superiority by reaching a success rate above 80% with only 50
dialogues, when learning from simulated experts. They also show superiority
when learning from human experts, although a performance drop was observed,
indicating a possible difficulty in capturing the variability of human
strategies. We therefore suggest to concentrate future research efforts on
bridging the gap between human data, simulators and automatic evaluators in
dialogue frameworks.
- Abstract(参考訳): 強化学習はタスク指向対話における対話マネージャのモデル化に広く採用されている。
しかし、最先端の対話フレームワークによって提供されるユーザシミュレータは、人間の振る舞いの粗い近似に過ぎない。
少数の人間との相互作用から学ぶ能力は、特にアクション空間が大きいマルチドメインやマルチタスク環境において重要である。
そこで我々は,このような環境における学習時のサンプル効率を向上させるための構造化ポリシーを提案する。
また,人間と模擬専門家の学習の効果も評価した。
私たちがテストしたさまざまなレベルの構造のうち、グラフニューラルネットワーク(gnns)は、50の対話で80%以上の成功率を達成し、専門家から学ぶことで顕著な優位性を示しています。
また、人間の戦略の多様性を捉えることの難しさを示唆する性能低下が観察されたにもかかわらず、人間の専門家から学ぶ場合の優越性も示している。
そこで我々は,対話フレームワークにおける人的データ,シミュレータ,自動評価器のギャップを埋めることに,今後の研究努力を集中させることを提案する。
関連論文リスト
- PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - PK-ICR: Persona-Knowledge Interactive Context Retrieval for Grounded Dialogue [21.266410719325208]
ペルソナとナレッジ デュアルコンテキスト識別(ペルソナとナレッジ コンテクストの同定)は、与えられた対話において、ペルソナとナレッジを共同で識別するタスクである。
我々は,対話のすべての文脈を同時に活用する新しい接地検索手法を開発した。
論文 参考訳(メタデータ) (2023-02-13T20:27:26Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Retrieval Augmentation Reduces Hallucination in Conversation [49.35235945543833]
知識に基づく対話のためのループ型ニューラルネットワークアーキテクチャの利用を検討する。
我々は,2つの知識に基づく会話タスクにおいて,最高のモデルが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2021-04-15T16:24:43Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Adaptive Dialog Policy Learning with Hindsight and User Modeling [10.088347529930129]
シミュレーションと実ユーザの両方から,ダイアログエージェントが後見で適応的に学習できるアルゴリズムLHUAを開発した。
実験結果から、LHUAは成功率と政策品質において、文献の競争基準よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-05-07T07:43:43Z) - Learning from Easy to Complex: Adaptive Multi-curricula Learning for
Neural Dialogue Generation [40.49175137775255]
現在の最先端のニューラルダイアログシステムは、主にデータ駆動であり、人為的な応答に基づいて訓練されている。
組織されたカリキュラムの委員会をスケジュールするための適応型多言語学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-02T03:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。