論文の概要: Sample-Efficient Model-based Actor-Critic for an Interactive Dialogue
Task
- arxiv url: http://arxiv.org/abs/2004.13657v1
- Date: Tue, 28 Apr 2020 17:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 21:59:33.576274
- Title: Sample-Efficient Model-based Actor-Critic for an Interactive Dialogue
Task
- Title(参考訳): 対話タスクのためのモデルベースアクタクリティカルのサンプル効率
- Authors: Katya Kudashkina, Valliappa Chockalingam, Graham W. Taylor, Michael
Bowling
- Abstract要約: 対話型対話タスクのためのモデルに基づく強化学習を提案する。
一般的なアクター批判的手法に基づいて構築し、学習エージェントに学習を促す環境モデルとプランナーを追加します。
この結果から,対話型タスクを模倣したシミュレーションでは,一般的なモデルフリーアルゴリズムのベースラインに比べて,70倍のサンプルを必要とすることがわかった。
- 参考スコア(独自算出の注目度): 27.896714528986855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-computer interactive systems that rely on machine learning are becoming
paramount to the lives of millions of people who use digital assistants on a
daily basis. Yet, further advances are limited by the availability of data and
the cost of acquiring new samples. One way to address this problem is by
improving the sample efficiency of current approaches. As a solution path, we
present a model-based reinforcement learning algorithm for an interactive
dialogue task. We build on commonly used actor-critic methods, adding an
environment model and planner that augments a learning agent to learn the model
of the environment dynamics. Our results show that, on a simulation that mimics
the interactive task, our algorithm requires 70 times fewer samples, compared
to the baseline of commonly used model-free algorithm, and demonstrates 2~times
better performance asymptotically. Moreover, we introduce a novel contribution
of computing a soft planner policy and further updating a model-free policy
yielding a less computationally expensive model-free agent as good as the
model-based one. This model-based architecture serves as a foundation that can
be extended to other human-computer interactive tasks allowing further advances
in this direction.
- Abstract(参考訳): 機械学習に依存する人間とコンピュータの対話型システムは、デジタルアシスタントを日々使っている何百万人もの人々の生活において最重要視されている。
しかし、データの可用性と新しいサンプルを取得するコストによって、さらなる進歩は制限されている。
この問題に対処する1つの方法は、現在のアプローチのサンプル効率を改善することである。
解法として,対話型対話タスクのためのモデルに基づく強化学習アルゴリズムを提案する。
我々は、一般的なアクター批判的手法に基づいて、学習エージェントを増強し、環境ダイナミクスのモデルを学ぶ環境モデルとプランナーを追加します。
その結果,対話型タスクを模倣するシミュレーションでは,一般的なモデルフリーアルゴリズムのベースラインに比べて70倍のサンプルが必要であり,漸近的に2~倍の性能を示すことがわかった。
さらに,ソフトプランナーポリシーを計算し,モデルベースと同等に計算コストの低いモデルフリーエージェントを産出するモデルフリーポリシーをさらに更新する,新たな貢献を提案する。
このモデルベースのアーキテクチャは、他の人間とコンピュータの対話的なタスクに拡張できる基盤として機能し、この方向にさらなる進歩をもたらす。
関連論文リスト
- STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Data efficient surrogate modeling for engineering design: Ensemble-free
batch mode deep active learning for regression [0.6021787236982659]
そこで本研究では,学生と教師の共用で,サロゲートモデルを学習するための,シンプルでスケーラブルな学習手法を提案する。
提案手法を用いることで,DBALやモンテカルロサンプリングのような他のベースラインと同レベルのサロゲート精度が得られる。
論文 参考訳(メタデータ) (2022-11-16T02:31:57Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent
Reinforcement Learning [15.12491397254381]
本稿では,暗黙的なモデルに基づくマルチエージェント強化学習手法を提案する。
この方法では,エージェントは学習した仮想環境と対話し,将来の予測状態に応じて現在の状態値を評価することができる。
論文 参考訳(メタデータ) (2022-04-20T12:16:27Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。