論文の概要: Discriminator Soft Actor Critic without Extrinsic Rewards
- arxiv url: http://arxiv.org/abs/2001.06808v3
- Date: Fri, 31 Jan 2020 12:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 10:02:58.278142
- Title: Discriminator Soft Actor Critic without Extrinsic Rewards
- Title(参考訳): 逆流のない判別器ソフトアクター批判
- Authors: Daichi Nishio, Daiki Kuyoshi, Toi Tsuneda and Satoshi Yamane
- Abstract要約: 少数の専門家データとサンプリングデータから、未知の状態においてうまく模倣することは困難である。
本稿では,このアルゴリズムを分散シフトに対してより堅牢にするために,DSAC(Distriminator Soft Actor Critic)を提案する。
- 参考スコア(独自算出の注目度): 0.30586855806896046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is difficult to be able to imitate well in unknown states from a small
amount of expert data and sampling data. Supervised learning methods such as
Behavioral Cloning do not require sampling data, but usually suffer from
distribution shift. The methods based on reinforcement learning, such as
inverse reinforcement learning and generative adversarial imitation learning
(GAIL), can learn from only a few expert data. However, they often need to
interact with the environment. Soft Q imitation learning addressed the
problems, and it was shown that it could learn efficiently by combining
Behavioral Cloning and soft Q-learning with constant rewards. In order to make
this algorithm more robust to distribution shift, we propose Discriminator Soft
Actor Critic (DSAC). It uses a reward function based on adversarial inverse
reinforcement learning instead of constant rewards. We evaluated it on PyBullet
environments with only four expert trajectories.
- Abstract(参考訳): 少数の専門家データとサンプリングデータから、未知の状態においてうまく模倣することは困難である。
行動クローニングのような教師あり学習法はサンプリングデータを必要としないが、分布シフトに苦しむことが多い。
逆強化学習やGAIL(generative adversarial mimicion learning)のような強化学習に基づく手法は,少数の専門家データからのみ学習することができる。
しかし、彼らはしばしば環境と相互作用する必要がある。
ソフトQ模倣学習はこの問題に対処し,行動クローンとソフトQ学習を一定報酬と組み合わせることで効率よく学習できることを示した。
本稿では,このアルゴリズムを分散シフトに対してより堅牢にするために,DSAC(Distriminator Soft Actor Critic)を提案する。
一定の報酬ではなく、逆逆強化学習に基づく報酬関数を用いる。
PyBullet環境において4つの専門的軌道のみを用いて評価した。
関連論文リスト
- Machine Unlearning in Forgettability Sequence [22.497699136603877]
未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす要因を同定する。
本稿では,RankingモジュールとSeqUnlearnモジュールからなる一般の未学習フレームワーク RSU を提案する。
論文 参考訳(メタデータ) (2024-10-09T01:12:07Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Extrinsicaly Rewarded Soft Q Imitation Learning with Discriminator [0.0]
行動クローンのような教師付き学習手法はサンプリングデータを必要としないが、通常は分散シフトに悩まされる。
ソフトQ模倣学習(SQIL)はこの問題に対処し,行動クローンとソフトQ学習を一定の報酬と組み合わせることで効率よく学習できることを示した。
論文 参考訳(メタデータ) (2024-01-30T06:22:19Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - When Do Curricula Work in Federated Learning? [56.88941905240137]
カリキュラム学習は非IID性を大幅に軽減する。
クライアント間でデータ配布を多様化すればするほど、学習の恩恵を受けるようになる。
本稿では,クライアントの現実的格差を生かした新しいクライアント選択手法を提案する。
論文 参考訳(メタデータ) (2022-12-24T11:02:35Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。