論文の概要: Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2302.10342v1
- Date: Mon, 20 Feb 2023 22:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 17:01:36.236723
- Title: Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems
- Title(参考訳): ファンタスティック・リワードとテイト・テーマ:タスク指向対話システムにおけるリワード学習を事例として
- Authors: Yihao Feng, Shentao Yang, Shujian Zhang, Jianguo Zhang, Caiming Xiong,
Mingyuan Zhou, Huan Wang
- Abstract要約: 強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
- 参考スコア(独自算出の注目度): 111.80916118530398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When learning task-oriented dialogue (ToD) agents, reinforcement learning
(RL) techniques can naturally be utilized to train dialogue strategies to
achieve user-specific goals. Prior works mainly focus on adopting advanced RL
techniques to train the ToD agents, while the design of the reward function is
not well studied. This paper aims at answering the question of how to
efficiently learn and leverage a reward function for training end-to-end (E2E)
ToD agents. Specifically, we introduce two generalized objectives for
reward-function learning, inspired by the classical learning-to-rank
literature. Further, we utilize the learned reward function to guide the
training of the E2E ToD agent. With the proposed techniques, we achieve
competitive results on the E2E response-generation task on the Multiwoz 2.0
dataset. Source code and checkpoints are publicly released at
https://github.com/Shentao-YANG/Fantastic_Reward_ICLR2023.
- Abstract(参考訳): タスク指向対話(ToD)エージェントを学習する場合、強化学習(RL)技術は自然に対話戦略を訓練してユーザ固有の目標を達成するために利用できる。
先行研究は主にtodエージェントの訓練に高度なrl技術を採用することに焦点を当てているが、報酬関数の設計はよく研究されていない。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効率的に学習し,活用する方法に関する質問に答えることを目的とする。
具体的には、古典的な学習からランクへの文学に触発された報奨関数学習の2つの一般化目標を紹介する。
さらに,学習報酬関数を用いて,E2E ToDエージェントのトレーニングを指導する。
提案手法により,Multiwoz 2.0データセット上でのE2E応答生成タスクにおける競合結果が得られた。
ソースコードとチェックポイントはhttps://github.com/Shentao-YANG/Fantastic_Reward_ICLR2023で公開されている。
関連論文リスト
- A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。
CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-10-18T17:51:51Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。
代わりに、自然言語インターフェースを使って報酬を安く設計できますか?
本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文 参考訳(メタデータ) (2023-02-27T22:09:35Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Successor Feature Neural Episodic Control [17.706998080391635]
強化学習の長年の目標は、速い学習と、人間や動物に似た柔軟なスキルの移譲を示すインテリジェントなエージェントを構築することである。
本稿では,これらの目標に対処するための2つのフレームワーク – エピソード制御と後継機能 – の統合について検討する。
論文 参考訳(メタデータ) (2021-11-04T19:14:43Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。