論文の概要: Reinforcement Learning Architectures: SAC, TAC, and ESAC
- arxiv url: http://arxiv.org/abs/2004.02274v1
- Date: Sun, 5 Apr 2020 18:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:28:50.825876
- Title: Reinforcement Learning Architectures: SAC, TAC, and ESAC
- Title(参考訳): 強化学習アーキテクチャ: SAC, TAC, ESAC
- Authors: Ala'eddin Masadeh, Zhengdao Wang, Ahmed E. Kamal
- Abstract要約: 提案アーキテクチャは、セレクター・アクター・クリティック(SAC)、チューナー・アクター・クリティック(TAC)、推定器・セレクター・アクター・クリティック(ESAC)と呼ばれる。
SACは、アクター、批評家、セレクタを備えたアーキテクチャであり、このセレクタは、批評家からの最後の見積もりに基づいて、現在の状態において最も有望なアクションを決定する。
TACは、チューナー、モデルラーナー、アクター、批評家で構成される。推定器は、近似値関数、学習された基礎モデル、ベルマン方程式を用いて、次の状態における全てのアクションの値を推定する。
- 参考スコア(独自算出の注目度): 13.546513438691013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The trend is to implement intelligent agents capable of analyzing available
information and utilize it efficiently. This work presents a number of
reinforcement learning (RL) architectures; one of them is designed for
intelligent agents. The proposed architectures are called selector-actor-critic
(SAC), tuner-actor-critic (TAC), and estimator-selector-actor-critic (ESAC).
These architectures are improved models of a well known architecture in RL
called actor-critic (AC). In AC, an actor optimizes the used policy, while a
critic estimates a value function and evaluate the optimized policy by the
actor. SAC is an architecture equipped with an actor, a critic, and a selector.
The selector determines the most promising action at the current state based on
the last estimate from the critic. TAC consists of a tuner, a model-learner, an
actor, and a critic. After receiving the approximated value of the current
state-action pair from the critic and the learned model from the model-learner,
the tuner uses the Bellman equation to tune the value of the current
state-action pair. ESAC is proposed to implement intelligent agents based on
two ideas, which are lookahead and intuition. Lookahead appears in estimating
the values of the available actions at the next state, while the intuition
appears in maximizing the probability of selecting the most promising action.
The newly added elements are an underlying model learner, an estimator, and a
selector. The model learner is used to approximate the underlying model. The
estimator uses the approximated value function, the learned underlying model,
and the Bellman equation to estimate the values of all actions at the next
state. The selector is used to determine the most promising action at the next
state, which will be used by the actor to optimize the used policy. Finally,
the results show the superiority of ESAC compared with the other architectures.
- Abstract(参考訳): 利用可能な情報を分析し、効率的に活用できるインテリジェントエージェントの実装がトレンドである。
この研究は、多くの強化学習(RL)アーキテクチャを示しており、そのうちの1つはインテリジェントエージェント用に設計されている。
提案されたアーキテクチャは、sac(selector-actor-critic)、tac(tuner-actor-critic)、esac(estimator-selector-actor-critic)と呼ばれる。
これらのアーキテクチャはアクター・クリティック(AC)と呼ばれるRLのよく知られたアーキテクチャのモデルの改良である。
ACでは、アクターは使用済みポリシーを最適化し、批評家は値関数を推定し、アクターによる最適化ポリシーを評価する。
SACはアクター、批評家、セレクターを備えたアーキテクチャである。
セレクタは、批評家からの最後の見積もりに基づいて、現在の状態で最も有望な行動を決定する。
TACはチューナー、モデル・ラーナー、俳優、批評家で構成されている。
評論家から現在の状態-作用対の近似値とモデル-学習者から学習モデルを受け取り、チューナーはベルマン方程式を用いて現在の状態-作用対の値をチューニングする。
ESACは2つのアイデアに基づく知的エージェントを実装するために提案されている。
lookaheadは次の状態における利用可能なアクションの値の推定に現れ、直観は最も有望なアクションを選択する確率を最大化する。
新たに追加された要素は、基礎となるモデル学習者、推定者、セレクタである。
モデル学習者は、基礎となるモデルを近似するために使用される。
推定器は近似値関数、学習した基礎モデル、ベルマン方程式を用いて次の状態における全ての行動の値を推定する。
セレクタは次の状態で最も有望なアクションを決定するために使用され、アクターが使用するポリシーを最適化するために使用する。
最後に、ESACが他のアーキテクチャに比べて優れていることを示す。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - A New Framework for Query Efficient Active Imitation Learning [5.167794607251493]
彼の好みと目的に基づいて、報酬と安全でない状態を知っている人間の専門家がいますが、人間の専門家に問い合わせるのは高価です。
本稿では,ユーザの報酬関数のモデルと効率的なクエリを積極的かつインタラクティブに学習する,模倣学習(IL)アルゴリズムを提案する。
提案手法は、状態ベース2次元ナビゲーションタスク、ロボット制御タスク、画像ベースビデオゲームに基づいて、シミュレーションされた人間を用いて評価する。
論文 参考訳(メタデータ) (2019-12-30T18:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。