論文の概要: Constrained Policy Optimization for Controlled Self-Learning in
Conversational AI Systems
- arxiv url: http://arxiv.org/abs/2209.08429v1
- Date: Sat, 17 Sep 2022 23:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:38:13.719090
- Title: Constrained Policy Optimization for Controlled Self-Learning in
Conversational AI Systems
- Title(参考訳): 対話型AIシステムにおける自己学習制御のための制約付きポリシー最適化
- Authors: Mohammad Kachuee, Sungjin Lee
- Abstract要約: ユーザ定義制約により、個々のドメインに対するきめ細かい探索ターゲットをサポートするスケーラブルなフレームワークを導入する。
この問題に対処するために,スケーラブルで実用的なメタ段階学習手法を提案する。
我々は、現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを使用して広範な実験を行う。
- 参考スコア(独自算出の注目度): 18.546197100318693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, self-learning methods based on user satisfaction metrics and
contextual bandits have shown promising results to enable consistent
improvements in conversational AI systems. However, directly targeting such
metrics by off-policy bandit learning objectives often increases the risk of
making abrupt policy changes that break the current user experience. In this
study, we introduce a scalable framework for supporting fine-grained
exploration targets for individual domains via user-defined constraints. For
example, we may want to ensure fewer policy deviations in business-critical
domains such as shopping, while allocating more exploration budget to domains
such as music. Furthermore, we present a novel meta-gradient learning approach
that is scalable and practical to address this problem. The proposed method
adjusts constraint violation penalty terms adaptively through a meta objective
that encourages balanced constraint satisfaction across domains. We conduct
extensive experiments using data from a real-world conversational AI on a set
of realistic constraint benchmarks. Based on the experimental results, we
demonstrate that the proposed approach is capable of achieving the best balance
between the policy value and constraint satisfaction rate.
- Abstract(参考訳): 近年,ユーザ満足度指標と文脈帯域に基づく自己学習手法が,対話型AIシステムにおける一貫した改善を実現するための有望な結果を示している。
しかし,このような指標を非政治的盗賊学習の目的によって直接的に対象とすることで,現在のユーザエクスペリエンスを損なうような急激な方針変更のリスクが増大することがしばしばある。
本研究では,ユーザ定義の制約により,個々のドメインのきめ細かな探索目標を支援するスケーラブルなフレームワークを提案する。
例えば、ショッピングのようなビジネスクリティカルな領域におけるポリシーの逸脱を減らすと同時に、音楽のような分野へのさらなる探索予算を割り当てたい場合もあります。
さらに,この問題に対処するために,スケーラブルで実用的な新しいメタ勾配学習手法を提案する。
提案手法は,ドメイン間の制約満足度を均衡させるメタ目的により,制約違反のペナルティ項を適応的に調整する。
現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを用いて広範な実験を行う。
実験結果から,提案手法は,政策価値と制約満足率の最適バランスを達成することができることを示した。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。
本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文 参考訳(メタデータ) (2023-10-10T19:47:27Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Pragmatic Fairness: Developing Policies with Outcome Disparity Control [15.618754942472822]
公正性の制約を満たす最適ポリシーを設計するための因果的枠組みを導入する。
そこで我々は,モデレーションの破れ制約と同等の利益制約という,2つの異なる公正性制約を提案する。
論文 参考訳(メタデータ) (2023-01-28T19:25:56Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Off-Policy Optimization of Portfolio Allocation Policies under
Constraints [0.8848340429852071]
財務の動的ポートフォリオ最適化問題には、投資家の好みとリスクによって、さまざまな制約に従う学習ポリシーが頻繁に必要です。
本研究の目的は, 逐次的意思決定枠組み内でアロケーションポリシを見つけることであり, (a) 適用済みのポリシに基づいて収集されたデータを使用すること, (b) 所望の制約を課すこと, (b) ほぼ最適ポリシーをこのデータで計算することである。
論文 参考訳(メタデータ) (2020-12-21T22:22:04Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。