論文の概要: A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms
- arxiv url: http://arxiv.org/abs/2010.01069v4
- Date: Wed, 26 Jan 2022 18:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:40:55.761324
- Title: A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms
- Title(参考訳): アクタークリティカルアルゴリズムにおけるミスマッチの解法
- Authors: Shangtong Zhang, Romain Laroche, Harm van Seijen, Shimon Whiteson,
Remi Tachet des Combes
- Abstract要約: 本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
- 参考スコア(独自算出の注目度): 81.01917016753644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the discounting mismatch in actor-critic algorithm
implementations from a representation learning perspective. Theoretically,
actor-critic algorithms usually have discounting for both actor and critic,
i.e., there is a $\gamma^t$ term in the actor update for the transition
observed at time $t$ in a trajectory and the critic is a discounted value
function. Practitioners, however, usually ignore the discounting ($\gamma^t$)
for the actor while using a discounted critic. We investigate this mismatch in
two scenarios. In the first scenario, we consider optimizing an undiscounted
objective $(\gamma = 1)$ where $\gamma^t$ disappears naturally $(1^t = 1)$. We
then propose to interpret the discounting in critic in terms of a
bias-variance-representation trade-off and provide supporting empirical
results. In the second scenario, we consider optimizing a discounted objective
($\gamma < 1$) and propose to interpret the omission of the discounting in the
actor update from an auxiliary task perspective and provide supporting
empirical results.
- Abstract(参考訳): 表現学習の観点から,アクタ-クリティックアルゴリズムの実装におけるディスカウントミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは、通常、アクターと批評家の両方に対して割引される。すなわち、軌跡で観測された遷移に対してアクター更新に$\gamma^t$項があり、批評家は値関数を割引する。
しかし、実践者は通常、俳優に対する割引($\gamma^t$)を無視して、ディスカウントされた批評家を使用する。
このミスマッチを2つのシナリオで検証する。
最初のシナリオでは、未計算の目的 $(\gamma = 1)$ ここで$\gamma^t$ は自然に$(1^t = 1)$ を失う。
次に、バイアス分散表現トレードオフの観点から批評家のディスカウントを解釈し、実証結果を提供する。
第2のシナリオでは、割引対象(\gamma < 1$)の最適化を検討し、補助的なタスクの観点からアクター更新における割引の省略を解釈し、実証的な結果を提供する。
関連論文リスト
- Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Two-Timescale Critic-Actor for Average Reward MDPs with Function Approximation [5.945710235932345]
本稿では,長期平均報酬設定における関数近似を用いた最初の2段階の批評家・アクターアルゴリズムを提案する。
我々の分析の特筆すべき特徴は、最近のシングルタイムスケールアクター批判アルゴリズムとは異なり、我々のスキームの完全な収束解析を提示することである。
論文 参考訳(メタデータ) (2024-02-02T12:48:49Z) - Finite-Time Analysis of Three-Timescale Constrained Actor-Critic and Constrained Natural Actor-Critic Algorithms [5.945710235932345]
我々は,制約付きマルコフ決定過程の関数近似を用いたアクター評論家と自然なアクター批評家アルゴリズムについて検討する。
我々はこれらのアルゴリズムを非i.d(マルコフアン)設定で非漸近解析する。
また、3つの異なるセーフティガイム環境の実験結果も示す。
論文 参考訳(メタデータ) (2023-10-25T05:04:00Z) - Finite-time analysis of single-timescale actor-critic [8.994243376183658]
アクター批判法は多くの挑戦的なアプリケーションで大きな成功を収めた。
有限時間収束は、最も実践的な単一時間スケールの形ではまだ理解されていない。
より実用的なオンラインシングルタイム・アクター・クリティカル・アルゴリズムを連続状態空間上で検討する。
論文 参考訳(メタデータ) (2022-10-18T15:03:56Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Finite Sample Analysis of Two-Time-Scale Natural Actor-Critic Algorithm [21.91930554261688]
アクタークリティカルな2時間スケールのアルゴリズムは強化学習で非常に人気がある。
本論文では,オンライン自然なアクター・クリティカルアルゴリズムのグローバル収束を特徴づける。
十分な探査を確保するために$epsilon$-greedyサンプリングを使用します。
論文 参考訳(メタデータ) (2021-01-26T01:12:07Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。