Fugu-MT 論文翻訳(概要): Adaptive Dialog Policy Learning with Hindsight and User Modeling

論文の概要: Adaptive Dialog Policy Learning with Hindsight and User Modeling

arxiv url: http://arxiv.org/abs/2005.03299v1
Date: Thu, 7 May 2020 07:43:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 22:30:10.974958
Title: Adaptive Dialog Policy Learning with Hindsight and User Modeling
Title（参考訳）: 隠れ視とユーザモデリングによる適応的対話政策学習
Authors: Yan Cao, Keting Lu, Xiaoping Chen, Shiqi Zhang
Abstract要約: シミュレーションと実ユーザの両方から,ダイアログエージェントが後見で適応的に学習できるアルゴリズムLHUAを開発した。実験結果から、LHUAは成功率と政策品質において、文献の競争基準よりも優れていたことが示唆された。
参考スコア（独自算出の注目度）: 10.088347529930129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning methods have been used to compute dialog policies from language-based interaction experiences. Efficiency is of particular importance in dialog policy learning, because of the considerable cost of interacting with people, and the very poor user experience from low-quality conversations. Aiming at improving the efficiency of dialog policy learning, we develop algorithm LHUA (Learning with Hindsight, User modeling, and Adaptation) that, for the first time, enables dialog agents to adaptively learn with hindsight from both simulated and real users. Simulation and hindsight provide the dialog agent with more experience and more (positive) reinforcements respectively. Experimental results suggest that, in success rate and policy quality, LHUA outperforms competitive baselines from the literature, including its no-simulation, no-adaptation, and no-hindsight counterparts.
Abstract（参考訳）: 言語に基づく対話体験からダイアログポリシーを計算するために,強化学習法が用いられている。効率性は、人との対話のかなりのコストと、低品質な会話によるユーザエクスペリエンスが極めて低いため、ダイアログポリシー学習において特に重要である。対話政策学習の効率向上を目的としたアルゴリズムlhua(後見性,ユーザモデリング,適応性)を開発し,対話エージェントがシミュレーションと実ユーザの両方から後見性で適応的に学習できるようにする。シミュレーションと後見は、ダイアログエージェントにそれぞれより経験と(肯定的な)強化を提供する。実験結果から、LHUAは成功率と政策品質において、ノンシミュレート、ノーアダプテーション、ノーアダプテーションなど、文学の競争ベースラインを上回っていることが示唆された。

関連論文リスト

Enhancing User-Oriented Proactivity in Open-Domain Dialogues with Critic Guidance [35.15965694815852]
オープンドメイン対話システムは自然な会話を生み出すことを目的としている。既存の大きな言語モデル(LLM)は、ユーザのチャットの好みを積極的に理解できない。ユーザ指向のプロアクティブ性を高めるために,ユーザ指向プロアクティブ(UPC)を提案する。
論文参考訳（メタデータ） (2025-05-18T09:59:22Z)
Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文参考訳（メタデータ） (2024-09-18T06:27:26Z)
Data Augmentation Integrating Dialogue Flow and Style to Adapt Spoken Dialogue Systems to Low-Resource User Groups [1.7725414095035827]
本研究では,音声対話システム(SDS)が,対話行動の異なるユーザと対話する場合に直面する課題について考察する。限られたリソースを持つユーザグループのSDS性能を向上させるための新しいデータ拡張フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-20T03:33:04Z)
Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。 PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文参考訳（メタデータ） (2023-11-01T03:20:16Z)
Improving Conversational Recommendation Systems via Counterfactual Data Simulation [73.4526400381668]
会話推薦システム(CRS)は、自然言語による会話を通じてレコメンデーションサービスを提供することを目的としている。既存のCRSアプローチは、トレーニングデータの不足により、トレーニングの不十分な問題に悩まされることが多い。我々は,CRSにおけるデータ不足の問題を緩和するため,CFCRSと呼ばれるCRSに対するCounterFactualデータシミュレーション手法を提案する。
論文参考訳（メタデータ） (2023-06-05T12:48:56Z)
Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。 LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文参考訳（メタデータ） (2023-05-22T15:12:43Z)
Few-Shot Structured Policy Learning for Multi-Domain and Multi-Task Dialogues [0.716879432974126]
グラフニューラルネットワーク(GNN)は、シミュレーション専門家から学ぶ際に、わずか50の対話で80%以上の成功率に達することで、顕著な優位性を示している。我々は,対話フレームワークにおける人的データ,シミュレータ,自動評価器のギャップを埋めることに,今後の研究努力を集中させることを提案する。
論文参考訳（メタデータ） (2023-02-22T08:18:49Z)
What Does The User Want? Information Gain for Hierarchical Dialogue Policy Optimisation [3.1433893853959605]
強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。 FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
論文参考訳（メタデータ） (2021-09-15T07:21:26Z)
Automatic Curriculum Learning With Over-repetition Penalty for Dialogue Policy Learning [8.744026064255337]
ACL-DQN(Automatic Curriculum Learning-based Deep Q-Network)という新しいフレームワークを提案し,自動カリキュラム学習のための対話方針を実現する。教師モデルは、有意義な順序のカリキュラムを配置し、対話エージェントの学習進捗を監視して自動的に調整する。実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。
論文参考訳（メタデータ） (2020-12-28T02:44:49Z)
Rethinking Supervised Learning and Reinforcement Learning in Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文参考訳（メタデータ） (2020-09-21T12:04:18Z)
Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。 2人のエージェントが互いに相互作用し、同時に一緒に学習されます。その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文参考訳（メタデータ） (2020-04-08T04:51:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。