論文の概要: Rescue Conversations from Dead-ends: Efficient Exploration for
Task-oriented Dialogue Policy Optimization
- arxiv url: http://arxiv.org/abs/2305.03262v1
- Date: Fri, 5 May 2023 03:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:28:22.896308
- Title: Rescue Conversations from Dead-ends: Efficient Exploration for
Task-oriented Dialogue Policy Optimization
- Title(参考訳): デッドエンドからの会話救助:タスク指向の対話政策最適化のための効率的な探索
- Authors: Yangyang Zhao, Zhenyu Wang, Mehdi Dastani, Shihan Wang
- Abstract要約: 本稿では,初期デッドエンド状態を時間的,効率的な方法で検出するデッドエンド復活アルゴリズムを提案する。
DDRはまた、デッドエンド状態を含む関連するエクスペリエンスを追加することで、対話データ拡張も行う。
- 参考スコア(独自算出の注目度): 8.554852265800186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a dialogue policy using deep reinforcement learning requires a lot
of exploration of the environment. The amount of wasted invalid exploration
makes their learning inefficient. In this paper, we find and define an
important reason for the invalid exploration: dead-ends. When a conversation
enters a dead-end state, regardless of the actions taken afterward, it will
continue in a dead-end trajectory until the agent reaches a termination state
or maximum turn. We propose a dead-end resurrection (DDR) algorithm that
detects the initial dead-end state in a timely and efficient manner and
provides a rescue action to guide and correct the exploration direction. To
prevent dialogue policies from repeatedly making the same mistake, DDR also
performs dialogue data augmentation by adding relevant experiences containing
dead-end states. We first validate the dead-end detection reliability and then
demonstrate the effectiveness and generality of the method by reporting
experimental results on several dialogue datasets from different domains.
- Abstract(参考訳): 深層強化学習を用いた対話政策の訓練には,環境の探索が必要となる。
無駄な不正な探索の量が学習を非効率にする。
本稿では,無効な探索の重要な理由であるデッドエンドを見つけ,定義する。
会話がデッドエンド状態に入ると、その後に行われたアクションに関係なく、エージェントが終了状態または最大ターンに達するまでデッドエンドの軌道を続ける。
本稿では,初期デッドエンド状態をタイムリーかつ効率的な方法で検出し,探索方向を誘導・補正するための救助行動を提供する,デッドエンド復活(DDR)アルゴリズムを提案する。
対話政策が繰り返し同じ過ちを犯さないようにするため、ddrはデッドエンド状態を含む関連体験を追加して対話データ拡張を行う。
まず,様々な領域の対話データセット上で実験結果を報告し,デッドエンド検出の信頼性を検証し,提案手法の有効性と汎用性を示す。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Dialogue State Distillation Network with Inter-Slot Contrastive Learning
for Dialogue State Tracking [25.722458066685046]
対話状態追跡(DST)は,対話履歴からユーザの意図を抽出することを目的としている。
現在、既存のほとんどのアプローチはエラーの伝播に悩まされており、関連する情報を動的に選択することはできない。
本稿では,従来の対話状態の関連情報を活用するために,対話状態蒸留ネットワーク(DSDN)を提案する。
論文 参考訳(メタデータ) (2023-02-16T11:05:24Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - Retrieval-Free Knowledge-Grounded Dialogue Response Generation with
Adapters [52.725200145600624]
軽量アダプタで事前学習した言語モデルに事前知識を注入し、検索プロセスをバイパスする KnowExpert を提案する。
実験結果から,KnowExpertは検索ベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2021-05-13T12:33:23Z) - Causal-aware Safe Policy Improvement for Task-oriented dialogue [45.88777832381149]
我々はタスク指向対話政策学習のためのバッチrlフレームワークを提案する:causal safe policy improvement (caspi)
Multiwoz2.0データセットの対話対テキスト生成およびエンドツーエンド対話タスクにおけるこのフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-10T22:34:28Z) - Improving Dialogue Breakdown Detection with Semi-Supervised Learning [7.7914806980889875]
そこで本研究では,セミ教師あり学習手法を用いて対話分解の検出を改善することを提案する。
本研究は,DBDC(Dilogue Breakdown Detection Challenge)英語共有タスクにおいて,これらの手法の有効性を示す。
論文 参考訳(メタデータ) (2020-10-30T23:04:56Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。