論文の概要: Characterizing the Action-Generalization Gap in Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2205.05588v1
- Date: Wed, 11 May 2022 16:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:48:48.479432
- Title: Characterizing the Action-Generalization Gap in Deep Q-Learning
- Title(参考訳): 深部Q-Learningにおける行動一般化ギャップの特徴付け
- Authors: Zhiyuan Zhou, Cameron Allen, Kavosh Asadi, George Konidaris
- Abstract要約: 一般化により、エージェントは過去の経験から学んだ知識を新しいタスクで利用できる。
実験により、Deep Q-Networks (DQN) は依然として控えめな行動一般化を達成可能であることが示された。
- 参考スコア(独自算出の注目度): 17.377157455292814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the action generalization ability of deep Q-learning in discrete
action spaces. Generalization is crucial for efficient reinforcement learning
(RL) because it allows agents to use knowledge learned from past experiences on
new tasks. But while function approximation provides deep RL agents with a
natural way to generalize over state inputs, the same generalization mechanism
does not apply to discrete action outputs. And yet, surprisingly, our
experiments indicate that Deep Q-Networks (DQN), which use exactly this type of
function approximator, are still able to achieve modest action generalization.
Our main contribution is twofold: first, we propose a method of evaluating
action generalization using expert knowledge of action similarity, and
empirically confirm that action generalization leads to faster learning;
second, we characterize the action-generalization gap (the difference in
learning performance between DQN and the expert) in different domains. We find
that DQN can indeed generalize over actions in several simple domains, but that
its ability to do so decreases as the action space grows larger.
- Abstract(参考訳): 離散的行動空間における深層q学習の行動一般化能力について検討した。
エージェントは新しいタスクで過去の経験から学んだ知識を使用できるため、効率的な強化学習(rl)には一般化が不可欠である。
しかし、関数近似は状態入力を一般化する自然な方法で深いRLエージェントを提供するが、同じ一般化機構は離散的な動作出力には適用されない。
しかし、驚くべきことに、このタイプの関数近似器を使用するDeep Q-Networks (DQN) は、依然として控えめな動作一般化を実現することができる。
まず,行動類似性に関する専門家の知識を用いて行動一般化を評価する手法を提案し,行動一般化が学習の高速化につながることを実証的に確認し,また,異なる領域における行動一般化のギャップ(DQNと専門家の学習性能の違い)を特徴付ける。
DQNはいくつかの単純な領域での作用よりも一般化できるが、作用空間が大きくなるにつれてその作用能力は低下する。
関連論文リスト
- Generalization in Cooperative Multi-Agent Systems [49.16349318581611]
協調型マルチエージェントシステムのための組合せ一般化(CG)の理論的基盤について検討する。
CGは、幅広いアプリケーションにまたがる実用性とデプロイ性を向上させることができるため、自律システムにとって非常に望ましい特徴である。
論文 参考訳(メタデータ) (2022-01-31T21:39:56Z) - Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文 参考訳(メタデータ) (2021-11-22T07:34:47Z) - Towards the Generalization of Contrastive Self-Supervised Learning [11.889992921445849]
本稿では, 自己教師付き事前学習モデルが下流タスクにどのように一般化するかを理論的に説明する。
さらに,SimCLR と Barlow Twins についても検討する。
論文 参考訳(メタデータ) (2021-11-01T07:39:38Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文 参考訳(メタデータ) (2021-07-27T13:30:07Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Embracing the Dark Knowledge: Domain Generalization Using Regularized
Knowledge Distillation [65.79387438988554]
十分なデータと代表データがない場合の一般化能力の欠如は、その実践的応用を妨げる課題の1つである。
我々はKDDG(Knowledge Distillation for Domain Generalization)という,シンプルで効果的な,プラグアンドプレイのトレーニング戦略を提案する。
教師ネットワークからの「より豊かな暗黒知識」と、我々が提案した勾配フィルタの両方が、マッピングの学習の難しさを軽減することができる。
論文 参考訳(メタデータ) (2021-07-06T14:08:54Z) - Double Descent and Other Interpolation Phenomena in GANs [4.83420384410068]
一般化誤差を潜在空間次元の関数として検討し,学習条件に応じて2つの主な挙動を同定する。
そこで我々は,実出力サンプルと組み合わせて,一対の合成(雑音)入力を利用するGANのための新しい擬似教師付き学習手法を開発した。
解析は主に線形GANに焦点をあてるが、非線形多層GANの一般化に重要な洞察を与える。
論文 参考訳(メタデータ) (2021-06-07T23:07:57Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。