論文の概要: Workflow-Guided Response Generation for Task-Oriented Dialogue
- arxiv url: http://arxiv.org/abs/2311.08300v1
- Date: Tue, 14 Nov 2023 16:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:10:03.266193
- Title: Workflow-Guided Response Generation for Task-Oriented Dialogue
- Title(参考訳): タスク指向対話のためのワークフローガイド応答生成
- Authors: Do June Min and Paloma Sodhi and Ramya Ramakrishnan
- Abstract要約: ワークフローに整合した対話応答を生成するための強化学習(RL)に基づく新しいフレームワークを提案する。
私たちのフレームワークは、生成されたレスポンスが指定されたアクションをどれだけうまく実行するかを評価するために設計されたメトリクスであるComplianceScorerで構成されています。
以上の結果から,我々のRLベースのフレームワークは,ベースラインよりも優れており,自然かつ流動的な表現をしながら,意図した応答に順応する上で有効であることが示唆された。
- 参考スコア(独自算出の注目度): 4.440232673676693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented dialogue (TOD) systems aim to achieve specific goals through
interactive dialogue. Such tasks usually involve following specific workflows,
i.e. executing a sequence of actions in a particular order. While prior work
has focused on supervised learning methods to condition on past actions, they
do not explicitly optimize for compliance to a desired workflow. In this paper,
we propose a novel framework based on reinforcement learning (RL) to generate
dialogue responses that are aligned with a given workflow. Our framework
consists of ComplianceScorer, a metric designed to evaluate how well a
generated response executes the specified action, combined with an RL
opimization process that utilizes an interactive sampling technique. We
evaluate our approach on two TOD datasets, Action-Based Conversations Dataset
(ABCD) (Chen et al., 2021a) and MultiWOZ 2.2 (Zang et al., 2020) on a range of
automated and human evaluation metrics. Our findings indicate that our RL-based
framework outperforms baselines and is effective at enerating responses that
both comply with the intended workflows while being expressed in a natural and
fluent manner.
- Abstract(参考訳): タスク指向対話(TOD)システムは対話的対話を通じて特定の目標を達成することを目的としている。
このようなタスクは通常、特定のワークフロー、すなわち特定の順序で一連のアクションを実行することを含む。
以前の作業では、過去のアクションを条件付けるための教師付き学習方法に重点を置いていたが、望ましいワークフローへのコンプライアンスを明示的に最適化するものではない。
本稿では,あるワークフローに整合した対話応答を生成するための強化学習(RL)に基づく新しいフレームワークを提案する。
本フレームワークは,対話型サンプリング技術を用いたRLオプティマイズ処理と,生成した応答が特定アクションをどの程度うまく実行するかを評価するためのメトリクスであるComplianceScorerで構成されている。
我々は2つのTODデータセット、ABCD(Chen et al., 2021a)とMultiWOZ 2.2(Zang et al., 2020)に対するアプローチを、自動化および人的評価の指標に基づいて評価する。
以上の結果から,我々のRLベースのフレームワークはベースラインよりも優れており,自然かつ流動的な表現をしながら,意図したワークフローに適合する応答の誘発に有効であることが示唆された。
関連論文リスト
- Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Context-dependent Instruction Tuning for Dialogue Response Generation [61.21790201307179]
最近の言語モデルは、微調整中にタスク入力に命令を組み込むことで、自然言語計算タスクにおいて顕著なパフォーマンスを実現している。
マルチターン対話のためのコンテキストベース命令微調整フレームワークを提案する。
評価中、モデルは以前の文脈に基づいて指示を生成し、応答を自己導出する。
論文 参考訳(メタデータ) (2023-11-13T01:25:30Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Leveraging Explicit Procedural Instructions for Data-Efficient Action
Prediction [5.448684866061922]
タスク指向の対話は、しばしばエージェントがユーザ要求を満たすために複雑で多段階の手順を実行する必要がある。
大規模言語モデルは、制約のある環境でこれらの対話を自動化することに成功したが、その広範な展開は、トレーニングに必要なタスク固有の大量のデータによって制限されている。
本稿では,エージェントガイドラインから導出した明示的な指示を利用して対話システムを構築するための,データ効率のよいソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:42:08Z) - Zero-Shot Generalizable End-to-End Task-Oriented Dialog System using
Context Summarization and Domain Schema [2.7178968279054936]
タスク指向対話システムにおける最先端のアプローチは、条件付きシーケンス生成タスクとして問題を定式化する。
これは、新しいドメインまたはタスクごとにラベル付きトレーニングデータを必要とする。
本稿では,ZS-ToDという,Zero-Shotの汎用的なエンドツーエンドタスク指向ダイアログシステムについて紹介する。
論文 参考訳(メタデータ) (2023-03-28T18:56:31Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - User Satisfaction Estimation with Sequential Dialogue Act Modeling in
Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。
USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。
4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-07T02:50:07Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - LAVA: Latent Action Spaces via Variational Auto-encoding for Dialogue
Policy Optimization [2.78632567955797]
強化学習は、タスク指向の対話システムがタスク完了に向けて会話を操ることを可能にする。
エンドツーエンド設定では、システム語彙全体をアクション空間として単語レベルの逐次決定プロセスで応答を構築することができる。
現在のアプローチでは、トレーニングにインフォームド事前を使用し、コンテキストのみに基づいて潜伏分布を最適化している。
したがって、潜在表現が真に異なる行動の特徴を符号化するかどうかは不明である。
論文 参考訳(メタデータ) (2020-11-18T16:23:30Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。