論文の概要: LAVA: Latent Action Spaces via Variational Auto-encoding for Dialogue
Policy Optimization
- arxiv url: http://arxiv.org/abs/2011.09378v1
- Date: Wed, 18 Nov 2020 16:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:04:11.164112
- Title: LAVA: Latent Action Spaces via Variational Auto-encoding for Dialogue
Policy Optimization
- Title(参考訳): lava: 対話政策最適化のための変分オートエンコーディングによる潜在アクションスペース
- Authors: Nurul Lubis, Christian Geishauser, Michael Heck, Hsien-chin Lin, Marco
Moresi, Carel van Niekerk and Milica Ga\v{s}i\'c
- Abstract要約: 強化学習は、タスク指向の対話システムがタスク完了に向けて会話を操ることを可能にする。
エンドツーエンド設定では、システム語彙全体をアクション空間として単語レベルの逐次決定プロセスで応答を構築することができる。
現在のアプローチでは、トレーニングにインフォームド事前を使用し、コンテキストのみに基づいて潜伏分布を最適化している。
したがって、潜在表現が真に異なる行動の特徴を符号化するかどうかは不明である。
- 参考スコア(独自算出の注目度): 2.78632567955797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) can enable task-oriented dialogue systems to
steer the conversation towards successful task completion. In an end-to-end
setting, a response can be constructed in a word-level sequential decision
making process with the entire system vocabulary as action space. Policies
trained in such a fashion do not require expert-defined action spaces, but they
have to deal with large action spaces and long trajectories, making RL
impractical. Using the latent space of a variational model as action space
alleviates this problem. However, current approaches use an uninformed prior
for training and optimize the latent distribution solely on the context. It is
therefore unclear whether the latent representation truly encodes the
characteristics of different actions. In this paper, we explore three ways of
leveraging an auxiliary task to shape the latent variable distribution: via
pre-training, to obtain an informed prior, and via multitask learning. We
choose response auto-encoding as the auxiliary task, as this captures the
generative factors of dialogue responses while requiring low computational cost
and neither additional data nor labels. Our approach yields a more
action-characterized latent representations which support end-to-end dialogue
policy optimization and achieves state-of-the-art success rates. These results
warrant a more wide-spread use of RL in end-to-end dialogue models.
- Abstract(参考訳): 強化学習(rl)により、タスク指向の対話システムがタスク完了に向けて会話を操ることができる。
エンドツーエンド設定では、システム語彙全体をアクション空間として単語レベルの逐次決定プロセスで応答を構築することができる。
このような方法で訓練されたポリシーは、専門家が定義したアクション空間を必要としないが、大きなアクション空間と長い軌跡を扱う必要があり、RLは実用的ではない。
変分モデルの潜在空間を作用空間として使うことはこの問題を緩和する。
しかし、現在のアプローチではトレーニングにインフォームド事前を使用し、コンテキストのみに基づいて潜伏分布を最適化している。
したがって、潜在表現が真に異なる行動の特徴を符号化するかどうかは不明である。
本稿では,予備学習,事前学習,インフォームド事前学習,マルチタスク学習という,潜在変数分布を形成する補助タスクを活用する3つの方法について検討する。
補助タスクとして応答自動エンコーディングを選択し、計算コストを低くし、付加データもラベルも必要とせず、対話応答の生成要因をキャプチャする。
我々の手法は、エンドツーエンドの対話ポリシー最適化をサポートし、最先端の成功率を達成する、よりアクション特性の潜在表現をもたらす。
これらの結果は、エンド・ツー・エンドの対話モデルにおけるRLの広範使用を保証している。
関連論文リスト
- Unsupervised Extraction of Dialogue Policies from Conversations [3.102576158218633]
本稿では,データセットから対話ポリシーを抽出する上で,Large Language Modelがいかに有効かを示す。
そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T14:57:25Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Dialog Action-Aware Transformer for Dialog Policy Learning [22.262659702998892]
本稿では,RLエージェントの学習速度を高速化するために,事前学習言語モデルからプレーンテキスト知識をフル活用することを提案する。
具体的には,ダイアログアクション対応トランスフォーマーエンコーダ(DaTrans)を設計し,マスクされた最後のアクションタスクと呼ばれる新しい微調整手順を統合する。
DaTransはさらに、継続的な相互作用を伴うRL環境で最適化され、長期蓄積された報酬を最大化するためにダイアログアクション空間での探索を通じて進化する。
論文 参考訳(メタデータ) (2023-09-05T13:47:25Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - DiactTOD: Learning Generalizable Latent Dialogue Acts for Controllable
Task-Oriented Dialogue Systems [15.087619144902776]
本稿では,潜在空間における対話行動を表現する対話行動モデル(DiactTOD)を提案する。
大規模なコーパスで事前トレーニングを行うと、DiactTODは対話を予測し制御し、制御可能な応答を生成する。
論文 参考訳(メタデータ) (2023-08-01T23:29:16Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Generalizable and Explainable Dialogue Generation via Explicit Action
Learning [33.688270031454095]
条件付き応答生成は、タスク完了と言語品質を最適化するための効果的なアプローチとして機能する。
潜在行動学習は、各発話を潜在表現にマッピングするために導入される。
このアプローチはトレーニングデータに過度に依存する傾向があるため、一般化能力は制限される。
提案手法は、ベンチマークマルチドメインデータセットであるMultiWOZにおいて、潜在アクションベースラインよりも優れている。
論文 参考訳(メタデータ) (2020-10-08T04:37:22Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。