論文の概要: Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management
- arxiv url: http://arxiv.org/abs/2302.10850v2
- Date: Sun, 29 Oct 2023 13:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 23:17:25.725324
- Title: Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management
- Title(参考訳): 対話混合管理のためのオフライン強化学習
- Authors: Dhawal Gupta, Yinlam Chow, Aza Tulepbergenov, Mohammad Ghavamzadeh,
Craig Boutilier
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 筋力のない対話管理(DM)エージェントを開発する上で大きな期待を抱いている。
我々は,近年のMixture-of-Expert Language Models(MoE-LMs)を活用した対話計画のための多種多様なRLアルゴリズムを開発した。
提案手法は,MoE-LM構造を利用して,アクション空間のサイズを大幅に削減し,RLベースのDMの有効性を向上する。
- 参考スコア(独自算出の注目度): 36.254564021059515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown great promise for developing dialogue
management (DM) agents that are non-myopic, conduct rich conversations, and
maximize overall user satisfaction. Despite recent developments in RL and
language models (LMs), using RL to power conversational chatbots remains
challenging, in part because RL requires online exploration to learn
effectively, whereas collecting novel human-bot interactions can be expensive
and unsafe. This issue is exacerbated by the combinatorial action spaces facing
these algorithms, as most LM agents generate responses at the word level. We
develop a variety of RL algorithms, specialized to dialogue planning, that
leverage recent Mixture-of-Expert Language Models (MoE-LMs) -- models that
capture diverse semantics, generate utterances reflecting different intents,
and are amenable for multi-turn DM. By exploiting MoE-LM structure, our methods
significantly reduce the size of the action space and improve the efficacy of
RL-based DM. We evaluate our methods in open-domain dialogue to demonstrate
their effectiveness w.r.t.\ the diversity of intent in generated utterances and
overall DM performance.
- Abstract(参考訳): 強化学習(rl)は、非認知的であり、リッチな会話を行い、ユーザの満足度全体を最大化する対話管理(dm)エージェントを開発することに大きな期待を示している。
近年のRLと言語モデル(LM)の発展にもかかわらず、対話型チャットボットのパワーとしてRLを使用していることは困難である。
この問題は、ほとんどのlmエージェントが単語レベルで応答を生成するため、これらのアルゴリズムに直面する組合せアクションスペースによって悪化する。
我々は対話計画に特化したRLアルゴリズムを開発し、近年のMixture-of-Expert Language Models (MoE-LMs) を利用して、多様な意味を捉え、異なる意図を反映した発話を生成する。
提案手法は,MoE-LM構造を利用して,アクション空間のサイズを大幅に削減し,RLベースのDMの有効性を向上する。
提案手法をオープンドメイン対話で評価し,生成した発話における意図の多様性と総合的DM性能を示す。
関連論文リスト
- Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - High-Quality Diversification for Task-Oriented Dialogue Systems [18.455916009255485]
多様な対話路を持つDRLエージェントの訓練は、稀なユーザ要求や目に見えない状況に備える。
1つの効果的な多様化方法は、エージェントが多様な学習されたユーザーモデルと対話できるようにすることである。
シミュレータで訓練されたタスク指向対話システムのための新しい対話多様化手法を提案する。
論文 参考訳(メタデータ) (2021-06-02T02:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。