論文の概要: Two Approaches to Building Collaborative, Task-Oriented Dialog Agents
through Self-Play
- arxiv url: http://arxiv.org/abs/2109.09597v1
- Date: Mon, 20 Sep 2021 14:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 21:49:18.251910
- Title: Two Approaches to Building Collaborative, Task-Oriented Dialog Agents
through Self-Play
- Title(参考訳): セルフプレイによる協調型タスク指向対話エージェント構築のための2つのアプローチ
- Authors: Arkady Arkhangorodsky, Scot Fang, Victoria Knight, Ajay Nagesh, Maria
Ryskina, Kevin Knight
- Abstract要約: タスク指向のダイアログシステムは、Wizard-of-Ozインタフェースから収集されたような人間/人間のダイアログに基づいて訓練されることが多い。
本稿では,API環境を自律的に探索するセルフプレイを通じて,エージェントボットとユーザボットを訓練する2つのアプローチについて検討する。
- 参考スコア(独自算出の注目度): 18.88705140683795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented dialog systems are often trained on human/human dialogs, such
as collected from Wizard-of-Oz interfaces. However, human/human corpora are
frequently too small for supervised training to be effective. This paper
investigates two approaches to training agent-bots and user-bots through
self-play, in which they autonomously explore an API environment, discovering
communication strategies that enable them to solve the task. We give empirical
results for both reinforcement learning and game-theoretic equilibrium finding.
- Abstract(参考訳): タスク指向のダイアログシステムは、ウィザード・オブ・ozインターフェースから収集されるような、人間/人間のダイアログで訓練されることが多い。
しかし、人間/人間のコーパスはしばしば小さすぎて指導された訓練が効果的ではない。
本稿では,エージェントボットとユーザボットをセルフプレイで学習し,API環境を自律的に探索し,タスクの解決を可能にするコミュニケーション戦略を発見するための2つのアプローチについて検討する。
我々は、強化学習とゲーム理論平衡探索の両方に経験的な結果を与える。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Improving Grounded Language Understanding in a Collaborative Environment
by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。
本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文 参考訳(メタデータ) (2023-04-21T05:37:59Z) - Few-Shot Structured Policy Learning for Multi-Domain and Multi-Task
Dialogues [0.716879432974126]
グラフニューラルネットワーク(GNN)は、シミュレーション専門家から学ぶ際に、わずか50の対話で80%以上の成功率に達することで、顕著な優位性を示している。
我々は,対話フレームワークにおける人的データ,シミュレータ,自動評価器のギャップを埋めることに,今後の研究努力を集中させることを提案する。
論文 参考訳(メタデータ) (2023-02-22T08:18:49Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Transferable Dialogue Systems and User Simulators [17.106518400787156]
対話システムのトレーニングの難しさの1つは、トレーニングデータの欠如である。
本稿では,対話システムとユーザシミュレータ間の対話を通して対話データを作成する可能性について検討する。
我々は,2つのエージェント間のセルフプレイを通じて,新たな対話シナリオを組み込むことのできるモデリングフレームワークを開発する。
論文 参考訳(メタデータ) (2021-07-25T22:59:09Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。