論文の概要: Sample-Efficient Model-based Actor-Critic for an Interactive Dialogue
Task
- arxiv url: http://arxiv.org/abs/2004.13657v1
- Date: Tue, 28 Apr 2020 17:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 21:59:33.576274
- Title: Sample-Efficient Model-based Actor-Critic for an Interactive Dialogue
Task
- Title(参考訳): 対話タスクのためのモデルベースアクタクリティカルのサンプル効率
- Authors: Katya Kudashkina, Valliappa Chockalingam, Graham W. Taylor, Michael
Bowling
- Abstract要約: 対話型対話タスクのためのモデルに基づく強化学習を提案する。
一般的なアクター批判的手法に基づいて構築し、学習エージェントに学習を促す環境モデルとプランナーを追加します。
この結果から,対話型タスクを模倣したシミュレーションでは,一般的なモデルフリーアルゴリズムのベースラインに比べて,70倍のサンプルを必要とすることがわかった。
- 参考スコア(独自算出の注目度): 27.896714528986855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-computer interactive systems that rely on machine learning are becoming
paramount to the lives of millions of people who use digital assistants on a
daily basis. Yet, further advances are limited by the availability of data and
the cost of acquiring new samples. One way to address this problem is by
improving the sample efficiency of current approaches. As a solution path, we
present a model-based reinforcement learning algorithm for an interactive
dialogue task. We build on commonly used actor-critic methods, adding an
environment model and planner that augments a learning agent to learn the model
of the environment dynamics. Our results show that, on a simulation that mimics
the interactive task, our algorithm requires 70 times fewer samples, compared
to the baseline of commonly used model-free algorithm, and demonstrates 2~times
better performance asymptotically. Moreover, we introduce a novel contribution
of computing a soft planner policy and further updating a model-free policy
yielding a less computationally expensive model-free agent as good as the
model-based one. This model-based architecture serves as a foundation that can
be extended to other human-computer interactive tasks allowing further advances
in this direction.
- Abstract(参考訳): 機械学習に依存する人間とコンピュータの対話型システムは、デジタルアシスタントを日々使っている何百万人もの人々の生活において最重要視されている。
しかし、データの可用性と新しいサンプルを取得するコストによって、さらなる進歩は制限されている。
この問題に対処する1つの方法は、現在のアプローチのサンプル効率を改善することである。
解法として,対話型対話タスクのためのモデルに基づく強化学習アルゴリズムを提案する。
我々は、一般的なアクター批判的手法に基づいて、学習エージェントを増強し、環境ダイナミクスのモデルを学ぶ環境モデルとプランナーを追加します。
その結果,対話型タスクを模倣するシミュレーションでは,一般的なモデルフリーアルゴリズムのベースラインに比べて70倍のサンプルが必要であり,漸近的に2~倍の性能を示すことがわかった。
さらに,ソフトプランナーポリシーを計算し,モデルベースと同等に計算コストの低いモデルフリーエージェントを産出するモデルフリーポリシーをさらに更新する,新たな貢献を提案する。
このモデルベースのアーキテクチャは、他の人間とコンピュータの対話的なタスクに拡張できる基盤として機能し、この方向にさらなる進歩をもたらす。
関連論文リスト
- Learning Low-Dimensional Strain Models of Soft Robots by Looking at the Evolution of Their Shape with Application to Model-Based Control [2.058941610795796]
本稿では,低次元物理モデル学習のための合理化手法を提案する。
各種平面ソフトマニピュレータを用いたシミュレーションにより,本手法の有効性を検証した。
物理的に互換性のあるモデルを生成する方法のおかげで、学習したモデルはモデルベースの制御ポリシーと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2024-10-31T18:37:22Z) - Model-based Policy Optimization using Symbolic World Model [46.42871544295734]
ロボット工学における学習に基づく制御手法の適用は、大きな課題を呈している。
1つは、モデルなし強化学習アルゴリズムがサンプル効率の低い観測データを使用することである。
シンボリック回帰によって生成されるシンボリック表現による遷移ダイナミクスの近似を提案する。
論文 参考訳(メタデータ) (2024-07-18T13:49:21Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Data efficient surrogate modeling for engineering design: Ensemble-free
batch mode deep active learning for regression [0.6021787236982659]
そこで本研究では,学生と教師の共用で,サロゲートモデルを学習するための,シンプルでスケーラブルな学習手法を提案する。
提案手法を用いることで,DBALやモンテカルロサンプリングのような他のベースラインと同レベルのサロゲート精度が得られる。
論文 参考訳(メタデータ) (2022-11-16T02:31:57Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。