論文の概要: Virtual Action Actor-Critic Framework for Exploration (Student Abstract)
- arxiv url: http://arxiv.org/abs/2311.02916v1
- Date: Mon, 6 Nov 2023 07:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:14:49.043216
- Title: Virtual Action Actor-Critic Framework for Exploration (Student Abstract)
- Title(参考訳): バーチャル・アクション・アクター・クライブ・フレームワークによる探索(学生要約)
- Authors: Bumgeun Park, Taeyoung Kim, Quoc-Vinh Lai-Dang, Dongsoo Har
- Abstract要約: この研究は、人間が実際に行動を起こすことなく行動の結果を想像できる能力にインスパイアされている。
提案したVAACは、累積報酬と仮想ポリシーエントロピーの負の和を組み合わせた修正Q関数の最大化を目的としている。
実験の結果,VAACは既存のアルゴリズムに比べて探索性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 2.6071653283020915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration for an agent is challenging in reinforcement learning
(RL). In this paper, a novel actor-critic framework namely virtual action
actor-critic (VAAC), is proposed to address the challenge of efficient
exploration in RL. This work is inspired by humans' ability to imagine the
potential outcomes of their actions without actually taking them. In order to
emulate this ability, VAAC introduces a new actor called virtual actor (VA),
alongside the conventional actor-critic framework. Unlike the conventional
actor, the VA takes the virtual action to anticipate the next state without
interacting with the environment. With the virtual policy following a Gaussian
distribution, the VA is trained to maximize the anticipated novelty of the
subsequent state resulting from a virtual action. If any next state resulting
from available actions does not exhibit high anticipated novelty, training the
VA leads to an increase in the virtual policy entropy. Hence, high virtual
policy entropy represents that there is no room for exploration. The proposed
VAAC aims to maximize a modified Q function, which combines cumulative rewards
and the negative sum of virtual policy entropy. Experimental results show that
the VAAC improves the exploration performance compared to existing algorithms.
- Abstract(参考訳): エージェントの効率的な探索は強化学習(RL)において困難である。
本稿では,RLにおける効率的な探索の課題を解決するために,新たなアクター批判フレームワークである仮想アクションアクター批判(VAAC)を提案する。
この研究は、人間が実際に行動を起こすことなく行動の結果を想像できる能力にインスパイアされている。
この能力をエミュレートするため、VAACは従来のアクター批判フレームワークと並行して、仮想アクター(VA)と呼ばれる新しいアクターを導入した。
従来のアクターとは異なり、VAは仮想アクションを使って環境と対話することなく次の状態を予測する。
ガウス分布に続く仮想ポリシーにより、VAは仮想アクションによって生じる次の状態の予想される新規性を最大化するために訓練される。
利用可能なアクションから生じる次の状態が期待された新しさを示さない場合、vaのトレーニングは仮想ポリシーエントロピーの増加につながる。
したがって、高い仮想ポリシーエントロピーは探索の余地がないことを示している。
提案したVAACは、累積報酬と仮想ポリシーエントロピーの負の和を組み合わせた修正Q関数の最大化を目的としている。
実験の結果,vaacは既存のアルゴリズムと比較して探索性能が向上することがわかった。
関連論文リスト
- Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning [16.761470423715338]
マルチUAV追跡回避は、UAV群知能にとって重要な課題である。
本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。
我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
論文 参考訳(メタデータ) (2024-09-24T08:40:04Z) - ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos [81.99559944822752]
我々は人間のビデオから視覚に基づくポリシー学習を改善するためにViViDexを提案する。
最初は強化学習と軌道誘導報酬を使って、各ビデオに対する州ベースのポリシーを訓練する。
次に、州ベースのポリシーから成功したエピソードをロールアウトし、特権情報を使用しずに統一された視覚ポリシーをトレーニングします。
論文 参考訳(メタデータ) (2024-04-24T07:58:28Z) - Active Exploration for Inverse Reinforcement Learning [58.295273181096036]
Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-18T14:45:55Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Behavior-Guided Actor-Critic: Improving Exploration via Learning Policy
Behavior Representation for Deep Reinforcement Learning [0.0]
行動誘導アクタークリティカル(BAC)を非政治アクタークリティカル深部RLアルゴリズムとして提案する。
BACは、オートエンコーダを介してポリシーの挙動を数学的に定式化する。
その結果,いくつかの最先端学習アルゴリズムと比較して,BACの性能は有意に向上した。
論文 参考訳(メタデータ) (2021-04-09T15:22:35Z) - Hybrid Policy Learning for Energy-Latency Tradeoff in MEC-Assisted VR
Video Service [35.31115954442725]
モバイルエッジコンピューティングネットワーク上で、ワイヤレスマルチタイルVRビデオサービスの提供を検討する。
私たちはまず、時間によって変化するビューの人気をモデルフリーのマルコフチェーンとみなした。
次に、動的キャッシュ置換と決定論的オフロードを調整するためにハイブリッドポリシーが実装される。
論文 参考訳(メタデータ) (2021-04-02T13:17:11Z) - Learning a Weakly-Supervised Video Actor-Action Segmentation Model with
a Wise Selection [97.98805233539633]
弱教師付きビデオアクターアクションセグメンテーション(VAAS)について検討する。
トレーニングサンプルのワイズ選択とモデル評価基準(WS2)を併用した汎用弱弱化フレームワークを提案する。
WS2は、弱い教師付きVOSとVAASタスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-29T21:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。