論文の概要: Toward Self-Learning End-to-End Dialog Systems
- arxiv url: http://arxiv.org/abs/2201.06849v1
- Date: Tue, 18 Jan 2022 09:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 15:31:55.666401
- Title: Toward Self-Learning End-to-End Dialog Systems
- Title(参考訳): 自己学習型エンドツーエンド対話システムに向けて
- Authors: Xiaoying Zhang, Baolin Peng, Jianfeng Gao, Helen Meng
- Abstract要約: 環境変化におけるエンドツーエンドの対話システムを構築するための自己学習フレームワークであるSL-Agentを提案する。
SL-Agentは、システム応答の品質を判断するダイアログモデルと事前訓練された報酬モデルから構成される。
実験により、SL-Agentは限定的な人間の修正によって、新しいタスクに効果的に適応できることが示されている。
- 参考スコア(独自算出の注目度): 107.65369860922392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end task-oriented dialog systems often suffer from out-of-distribution
(OOD) inputs after being deployed in dynamic, changing, and open environments.
In this work, we propose SL-Agent, a self-learning framework that combines
supervised learning, reinforcement learning, and machine teaching for building
end-to-end dialog systems in a more realistic changing environment setting.
SL-Agent consists of a dialog model and a pre-trained reward model to judge the
quality of a system response. SL-Agent enables dialog agents to automatically
adapt to environments with user behavior changes by learning from human-bot
interactions via reinforcement learning, with the incorporated pre-trained
reward model. We validate SL-Agent in four different dialog domains.
Experimental results show the effectiveness of SL-Agent for automatically
adapting to changing environments using both automatic and human evaluations.
Furthermore, experiments on a challenging domain extension setting demonstrate
that SL-Agent can effectively adapt to new tasks using limited human
corrections provided via machine teaching. We will release code, data, and
pre-trained models for further research.
- Abstract(参考訳): エンドツーエンドのタスク指向のダイアログシステムは、動的、変化し、オープンな環境にデプロイされた後、アウト・オブ・ディストリビューション(OOD)の入力に悩まされることが多い。
本研究では,より現実的な環境下での対話システム構築のための教師付き学習,強化学習,機械教育を組み合わせた自己学習フレームワークSL-Agentを提案する。
SL-Agentは、システム応答の品質を判断するダイアログモデルと事前訓練された報酬モデルから構成される。
SL-Agentは、強化学習を通じて人間とボットのインタラクションから学習することで、ユーザー行動の変化のある環境に自動的に適応できる。
SL-Agentを4つの異なるダイアログドメインで検証する。
SL-Agentは自動評価と人的評価の両方を用いて環境変化に適応する。
さらに、挑戦的なドメイン拡張設定の実験により、slエージェントが機械教育によって提供される限られた人間の修正を用いて、新しいタスクに効果的に適応できることが示されている。
さらなる研究のために、コード、データ、事前訓練されたモデルをリリースします。
関連論文リスト
- Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models [8.123272461141815]
厳密にキュレートされた高品質データセットに基づいてトレーニングされたTinyAgentモデルを紹介する。
また,言語エージェントの能力向上を目的とした革新的システムであるCMAT(Collaborative Multi-Agent Tuning)フレームワークを提案する。
本研究では,マルチエージェントシステムと環境フィードバック機構を統合した新しいコミュニケーションエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T06:07:35Z) - Modeling Resilience of Collaborative AI Systems [1.869472599236422]
協調人工知能システム(CAIS)は、共通の目標を達成するために、人間と協調して行動する。
CAISは、トレーニングされたAIモデルを使用して、人間のシステムインタラクションを制御することができる。
人間のフィードバックによるオンライン学習では、AIモデルは学習状態のシステムセンサーを通して人間のインタラクションを監視することによって進化する。
これらのセンサーに影響を及ぼす破壊的なイベントは、AIモデルが正確な決定を行い、CAISのパフォーマンスを低下させる能力に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-01-23T10:28:33Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization [7.151589223349882]
ポリシーラーニング(英: Policy Learning、PL)は、エージェントに各対話のターンでアクションをするように訓練するタスク指向の対話システムのモジュールである。
教師付き学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
本研究では,実対話データセットからポリシーを学習するオフライン模倣学習モデルを提案する。
論文 参考訳(メタデータ) (2023-05-06T09:27:58Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - Transferable Dialogue Systems and User Simulators [17.106518400787156]
対話システムのトレーニングの難しさの1つは、トレーニングデータの欠如である。
本稿では,対話システムとユーザシミュレータ間の対話を通して対話データを作成する可能性について検討する。
我々は,2つのエージェント間のセルフプレイを通じて,新たな対話シナリオを組み込むことのできるモデリングフレームワークを開発する。
論文 参考訳(メタデータ) (2021-07-25T22:59:09Z) - SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine
Teaching [81.45928589522032]
トランスフォーマーに基づく自動回帰言語モデルを用いて,モジュール型タスク指向対話システムをパラメータ化する。
タスクグラウンド応答生成モデルである異種ダイアログコーパスの事前学習を行う。
実験により、SOLOISTは、よく研究されたタスク指向のダイアログベンチマーク上で、新しい最先端のダイアログを生成する。
論文 参考訳(メタデータ) (2020-05-11T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。