論文の概要: A Mixture-of-Expert Approach to RL-based Dialogue Management
- arxiv url: http://arxiv.org/abs/2206.00059v1
- Date: Tue, 31 May 2022 19:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:50:07.622940
- Title: A Mixture-of-Expert Approach to RL-based Dialogue Management
- Title(参考訳): RL-based Dialogue ManagementにおけるMixture-of-Expertアプローチ
- Authors: Yinlam Chow and Aza Tulepbergenov and Ofir Nachum and MoonKyung Ryu
and Mohammad Ghavamzadeh and Craig Boutilier
- Abstract要約: 我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
- 参考スコア(独自算出の注目度): 56.08449336469477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advancements in language models (LMs), their application to
dialogue management (DM) problems and ability to carry on rich conversations
remain a challenge. We use reinforcement learning (RL) to develop a dialogue
agent that avoids being short-sighted (outputting generic utterances) and
maximizes overall user satisfaction. Most existing RL approaches to DM train
the agent at the word-level, and thus, have to deal with a combinatorially
complex action space even for a medium-size vocabulary. As a result, they
struggle to produce a successful and engaging dialogue even if they are
warm-started with a pre-trained LM. To address this issue, we develop a
RL-based DM using a novel mixture of expert language model (MoE-LM) that
consists of (i) a LM capable of learning diverse semantics for conversation
histories, (ii) a number of {\em specialized} LMs (or experts) capable of
generating utterances corresponding to a particular attribute or personality,
and (iii) a RL-based DM that performs dialogue planning with the utterances
generated by the experts. Our MoE approach provides greater flexibility to
generate sensible utterances with different intents and allows RL to focus on
conversational-level DM. We compare it with SOTA baselines on open-domain
dialogues and demonstrate its effectiveness both in terms of the diversity and
sensibility of the generated utterances and the overall DM performance.
- Abstract(参考訳): 近年の言語モデル(LM)の進歩にもかかわらず、対話管理(DM)問題やリッチな会話を行う能力への応用は依然として課題である。
強化学習(rl)を用いて,短視(総称発話)を避け,ユーザの満足度を最大化する対話エージェントを開発した。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するため、中規模の語彙であっても組合せ的に複雑なアクション空間を扱う必要がある。
その結果、事前訓練されたLMでウォームスタートしても、成功し、活発な対話を生み出すのに苦労した。
この問題に対処するため、我々はエキスパート言語モデル(MoE-LM)の新たな混合を用いたRLベースのDMを開発した。
(i)会話履歴の多様な意味学を学習できるLM。
(ii)特定の属性又は人格に対応する発話を生成できる多数の「em特化」lmm(又は専門家)
(iii)専門家が生成した発話と対話計画を行うrlベースのdm。
我々のMoEアプローチは、異なる意図で意味のある発話を生成する柔軟性を高め、RLが会話レベルのDMに集中できるようにする。
オープンドメイン対話に基づくSOTAベースラインと比較し、生成した発話の多様性と感度と全体のDM性能の両面からその効果を実証する。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - StyleChat: Learning Recitation-Augmented Memory in LLMs for Stylized Dialogue Generation [43.29667566560533]
LLM(Large Language Models)の生成能力を活用することで38のスタイルを持つスタイル化された対話データセットであるStyleEvalを導入する。
本稿では,多タスク型学習戦略と再帰型メモリ戦略を通したスタイル化対話フレームワークであるStyleChatを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:26:18Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management [36.254564021059515]
強化学習(Reinforcement Learning, RL)は, 筋力のない対話管理(DM)エージェントを開発する上で大きな期待を抱いている。
我々は,近年のMixture-of-Expert Language Models(MoE-LMs)を活用した対話計画のための多種多様なRLアルゴリズムを開発した。
提案手法は,MoE-LM構造を利用して,アクション空間のサイズを大幅に削減し,RLベースのDMの有効性を向上する。
論文 参考訳(メタデータ) (2023-02-21T18:02:20Z) - Integrating Pre-trained Model into Rule-based Dialogue Management [32.90885176553305]
ルールベースの対話管理は、まだ産業用タスク指向対話システムのための最も人気のあるソリューションです。
データ駆動対話システム(通常はエンドツーエンド構造)は学術研究で人気がある。
本稿ではルールベースとデータ駆動型ダイアログマネージャの長所を活用する手法を提案する。
論文 参考訳(メタデータ) (2021-02-17T03:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。