論文の概要: Agent-Aware Training for Agent-Agnostic Action Advising in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.16807v1
- Date: Tue, 28 Nov 2023 14:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 18:18:53.734913
- Title: Agent-Aware Training for Agent-Agnostic Action Advising in Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習におけるエージェント非依存行動のエージェントアウェアトレーニング
- Authors: Yaoquan Wei, Shunyu Liu, Jie Song, Tongya Zheng, Kaixuan Chen, Yong
Wang, Mingli Song
- Abstract要約: 深層強化学習(DRL)における非効率サンプリングの課題を軽減するため、専門家教員からの補助的指導を活用するための行動アドバイス
従来のエージェント特異的な行動アドバイス法はエージェント自体の不完全性によって妨げられ、エージェント非依存的なアプローチでは学習エージェントへの適応性が制限される。
本稿では,エージェント・アウェア・trAining yet Agent-Agnostic Action Advising (A7) という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.70609910232786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action advising endeavors to leverage supplementary guidance from expert
teachers to alleviate the issue of sampling inefficiency in Deep Reinforcement
Learning (DRL). Previous agent-specific action advising methods are hindered by
imperfections in the agent itself, while agent-agnostic approaches exhibit
limited adaptability to the learning agent. In this study, we propose a novel
framework called Agent-Aware trAining yet Agent-Agnostic Action Advising (A7)
to strike a balance between the two. The underlying concept of A7 revolves
around utilizing the similarity of state features as an indicator for
soliciting advice. However, unlike prior methodologies, the measurement of
state feature similarity is performed by neither the error-prone learning agent
nor the agent-agnostic advisor. Instead, we employ a proxy model to extract
state features that are both discriminative (adaptive to the agent) and
generally applicable (robust to agent noise). Furthermore, we utilize behavior
cloning to train a model for reusing advice and introduce an intrinsic reward
for the advised samples to incentivize the utilization of expert guidance.
Experiments are conducted on the GridWorld, LunarLander, and six prominent
scenarios from Atari games. The results demonstrate that A7 significantly
accelerates the learning process and surpasses existing methods (both
agent-specific and agent-agnostic) by a substantial margin. Our code will be
made publicly available.
- Abstract(参考訳): 深層強化学習(drl)におけるサンプリング非効率化の課題を軽減すべく,教師の補助指導を活用しようとする活動
従来のエージェント特異的な行動アドバイス法はエージェント自体の不完全性によって妨げられ、エージェント非依存アプローチでは学習エージェントへの適応性が制限される。
本研究では,エージェント・アウェア・trAining yet Agent-Agnostic Action Advising (A7) と呼ばれる新しいフレームワークを提案する。
a7の基本的な概念は、州の特徴の類似性を利用してアドバイスを誘惑する指標となる。
しかし、以前の手法とは異なり、状態特徴の類似度の測定は、エラープロイン学習エージェントもエージェント非依存のアドバイザーも行わない。
代わりにプロキシモデルを用いて、差別的(エージェントに適応)かつ一般に適用可能な(エージェントノイズに悪影響)状態の特徴を抽出します。
さらに,提案モデルの学習に行動クローニングを応用し,専門家指導の活用を動機づけるために,推奨サンプルに対する内在的な報酬を導入する。
GridWorld、LunarLander、およびAtariゲームからの6つの著名なシナリオで実験が行われている。
その結果、a7は学習プロセスを著しく加速し、既存の方法(エージェント固有とエージェント非依存の両方)をかなりのマージンで上回った。
私たちのコードは公開されます。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Self-Supervised Adversarial Imitation Learning [20.248498544165184]
行動クローンは、専門家によるデモンストレーションを通じてエージェントに行動の仕方を教える。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な観測不可能なスナップショットをセルフスーパービジョンで使用しています。
これまでの作業では、この問題を解決するためにゴール認識戦略を使用していました。
差別化を元のフレームワークに組み込むことによって、この制限に対処する。
論文 参考訳(メタデータ) (2023-04-21T12:12:33Z) - GANterfactual-RL: Understanding Reinforcement Learning Agents'
Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。
本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:29:43Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。