論文の概要: Characterizing the Action-Generalization Gap in Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2205.05588v1
- Date: Wed, 11 May 2022 16:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:48:48.479432
- Title: Characterizing the Action-Generalization Gap in Deep Q-Learning
- Title(参考訳): 深部Q-Learningにおける行動一般化ギャップの特徴付け
- Authors: Zhiyuan Zhou, Cameron Allen, Kavosh Asadi, George Konidaris
- Abstract要約: 一般化により、エージェントは過去の経験から学んだ知識を新しいタスクで利用できる。
実験により、Deep Q-Networks (DQN) は依然として控えめな行動一般化を達成可能であることが示された。
- 参考スコア(独自算出の注目度): 17.377157455292814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the action generalization ability of deep Q-learning in discrete
action spaces. Generalization is crucial for efficient reinforcement learning
(RL) because it allows agents to use knowledge learned from past experiences on
new tasks. But while function approximation provides deep RL agents with a
natural way to generalize over state inputs, the same generalization mechanism
does not apply to discrete action outputs. And yet, surprisingly, our
experiments indicate that Deep Q-Networks (DQN), which use exactly this type of
function approximator, are still able to achieve modest action generalization.
Our main contribution is twofold: first, we propose a method of evaluating
action generalization using expert knowledge of action similarity, and
empirically confirm that action generalization leads to faster learning;
second, we characterize the action-generalization gap (the difference in
learning performance between DQN and the expert) in different domains. We find
that DQN can indeed generalize over actions in several simple domains, but that
its ability to do so decreases as the action space grows larger.
- Abstract(参考訳): 離散的行動空間における深層q学習の行動一般化能力について検討した。
エージェントは新しいタスクで過去の経験から学んだ知識を使用できるため、効率的な強化学習(rl)には一般化が不可欠である。
しかし、関数近似は状態入力を一般化する自然な方法で深いRLエージェントを提供するが、同じ一般化機構は離散的な動作出力には適用されない。
しかし、驚くべきことに、このタイプの関数近似器を使用するDeep Q-Networks (DQN) は、依然として控えめな動作一般化を実現することができる。
まず,行動類似性に関する専門家の知識を用いて行動一般化を評価する手法を提案し,行動一般化が学習の高速化につながることを実証的に確認し,また,異なる領域における行動一般化のギャップ(DQNと専門家の学習性能の違い)を特徴付ける。
DQNはいくつかの単純な領域での作用よりも一般化できるが、作用空間が大きくなるにつれてその作用能力は低下する。
関連論文リスト
- Doubly Mild Generalization for Offline Reinforcement Learning [50.084440946096]
我々は,データセットを越えた軽度の一般化を信頼し,一定の条件下での性能向上に活用できることを実証した。
本研究では, (i) 軽度行動一般化と (ii) 軽度一般化伝搬からなる二重軽度一般化(DMG)を提案する。
DMGはGym-MuJoCoタスク間の最先端のパフォーマンスを実現し、AntMazeタスクに挑戦する。
論文 参考訳(メタデータ) (2024-11-12T17:04:56Z) - Efficient Open-world Reinforcement Learning via Knowledge Distillation
and Autonomous Rule Discovery [5.680463564655267]
ルール駆動のディープラーニングエージェント(RDQ)がフレームワークの実装の可能な1つだ。
RDQは,世界との対話において,タスク固有のルールを抽出することに成功した。
実験では,RDQエージェントはベースラインエージェントよりも新規性に非常に耐性があることが示されている。
論文 参考訳(メタデータ) (2023-11-24T04:12:50Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Investigating Forgetting in Pre-Trained Representations Through
Continual Learning [51.30807066570425]
事前学習した言語モデルの汎用性に及ぼす表現忘れの影響について検討する。
様々な事前学習されたLMで一般化が破壊され,構文的・意味的知識は連続学習によって忘れられることがわかった。
論文 参考訳(メタデータ) (2023-05-10T08:27:59Z) - Generalization Through the Lens of Learning Dynamics [11.009483845261958]
機械学習(ML)システムは、デプロイ時に正確な予測を得るために、新しい状況に一般化することを学ぶ必要がある。
ディープニューラルネットワークの印象的な一般化性能は、理論家たちに悪影響を与えている。
この論文は、教師付き学習タスクと強化学習タスクの両方において、ディープニューラルネットワークの学習ダイナミクスを研究する。
論文 参考訳(メタデータ) (2022-12-11T00:07:24Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Embracing the Dark Knowledge: Domain Generalization Using Regularized
Knowledge Distillation [65.79387438988554]
十分なデータと代表データがない場合の一般化能力の欠如は、その実践的応用を妨げる課題の1つである。
我々はKDDG(Knowledge Distillation for Domain Generalization)という,シンプルで効果的な,プラグアンドプレイのトレーニング戦略を提案する。
教師ネットワークからの「より豊かな暗黒知識」と、我々が提案した勾配フィルタの両方が、マッピングの学習の難しさを軽減することができる。
論文 参考訳(メタデータ) (2021-07-06T14:08:54Z) - Learning to Represent Action Values as a Hypergraph on the Action
Vertices [17.811355496708728]
行動値推定は強化学習法(RL)の重要な要素である。
多次元のアクション空間の構造を活用することが、アクションの優れた表現を学ぶための鍵となる要素であると推測する。
Atari 2600 ゲームや、離散化物理制御ベンチマークなど、無数の領域に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-10-28T00:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。