論文の概要: Dynamic Dialogue Policy Transformer for Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.05928v1
- Date: Tue, 12 Apr 2022 16:30:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:16:25.265995
- Title: Dynamic Dialogue Policy Transformer for Continual Reinforcement Learning
- Title(参考訳): 連続強化学習のための動的対話ポリシー変換器
- Authors: Christian Geishauser, Carel van Niekerk, Nurul Lubis, Michael Heck,
Hsien-Chin Lin, Shutong Feng, Milica Ga\v{s}i\'c
- Abstract要約: 継続的な学習は人間の学習の鍵となる要素の1つであり、人工知能に必要な要件である。
連続学習モデルを評価するためのトレーニングプロトコル、ベースラインモデル、適切なメトリクスを備えたフレームワークを提供する。
本稿では,新しい知識をシームレスに統合できる新しい動的アーキテクチャである動的対話ポリシートランスフォーマー(DDPT)を提案する。
- 参考スコア(独自算出の注目度): 2.580163308334609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning is one of the key components of human learning and a
necessary requirement of artificial intelligence. As dialogue can potentially
span infinitely many topics and tasks, a task-oriented dialogue system must
have the capability to continually learn, dynamically adapting to new
challenges while preserving the knowledge it already acquired. Despite the
importance, continual reinforcement learning of the dialogue policy has
remained largely unaddressed. The lack of a framework with training protocols,
baseline models and suitable metrics, has so far hindered research in this
direction. In this work we fill precisely this gap, enabling research in
dialogue policy optimisation to go from static to dynamic learning. We provide
a continual learning algorithm, baseline architectures and metrics for
assessing continual learning models. Moreover, we propose the dynamic dialogue
policy transformer (DDPT), a novel dynamic architecture that can integrate new
knowledge seamlessly, is capable of handling large state spaces and obtains
significant zero-shot performance when being exposed to unseen domains, without
any growth in network parameter size.
- Abstract(参考訳): 継続的な学習は人間の学習の重要な要素の一つであり、人工知能に必要な要件である。
対話は無限に多くのトピックやタスクにまたがる可能性があるため、タスク指向の対話システムは、獲得した知識を保ちながら、新しい課題に動的に適応し、継続的に学習する能力を持つ必要がある。
この重要性にもかかわらず、対話政策の継続的な強化学習は、ほとんど未対応のままである。
トレーニングプロトコルやベースラインモデル、適切なメトリクスを備えたフレームワークの欠如は、これまでこの方向の研究を妨げてきた。
本研究では、このギャップを正確に埋め、対話ポリシーの最適化の研究を静的な学習から動的学習へと進める。
連続学習モデルを評価するための連続学習アルゴリズム、ベースラインアーキテクチャ、メトリクスを提供する。
さらに,新しい知識をシームレスに統合する動的対話ポリシートランスフォーマ (DDPT) を提案し,ネットワークパラメータの増大を伴わずに未確認領域に露出した場合に,大きな状態空間を処理でき,大幅なゼロショット性能を得ることができる。
関連論文リスト
- Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - A Simple But Effective Approach to n-shot Task-Oriented Dialogue
Augmentation [32.43362825854633]
本稿では,タスク指向対話を完全自動で生成するフレームワークを提案する。
我々のフレームワークはタスク指向対話における各ターンペアは特定の機能を持つという単純な考え方を用いています。
いくつかのドメインの微調整シナリオの大幅な改善を観察します。
論文 参考訳(メタデータ) (2021-02-27T18:55:12Z) - Continual Learning in Task-Oriented Dialogue Systems [49.35627673523519]
タスク指向対話システムにおける継続的な学習は、システム全体のリトレーニングのコストを伴わずに、時間を通じて新しいドメインや機能を追加できる。
37ドメインのタスク指向対話システムを4つの設定で継続的に学習するための継続的学習ベンチマークを提案する。
論文 参考訳(メタデータ) (2020-12-31T08:44:25Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Dialog Policy Learning for Joint Clarification and Active Learning
Queries [24.420113907842147]
我々は階層的な対話ポリシーを訓練し、明確化と活発な学習の両方を共同で行う。
本研究では,これらの機能の一つあるいは両方に対して静的なダイアログポリシーを使用することよりも,対話ポリシーの明確化と能動的学習が効果的であることを示す。
論文 参考訳(メタデータ) (2020-06-09T18:53:21Z) - Meta Dialogue Policy Learning [58.045067703675095]
我々は、ドメイン間の共有可能な低レベル信号を利用するために、Deep Transferable Q-Network (DTQN)を提案する。
状態と行動表現空間をこれらの低レベル成分に対応する特徴部分空間に分解する。
実験において,本モデルは,成功率と対話効率の両方の観点から,ベースラインモデルより優れている。
論文 参考訳(メタデータ) (2020-06-03T23:53:06Z) - Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。
タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文 参考訳(メタデータ) (2020-03-17T01:34:56Z) - Learning from Easy to Complex: Adaptive Multi-curricula Learning for
Neural Dialogue Generation [40.49175137775255]
現在の最先端のニューラルダイアログシステムは、主にデータ駆動であり、人為的な応答に基づいて訓練されている。
組織されたカリキュラムの委員会をスケジュールするための適応型多言語学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-02T03:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。