論文の概要: Policy Gradient with Kernel Quadrature
- arxiv url: http://arxiv.org/abs/2310.14768v1
- Date: Mon, 23 Oct 2023 10:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:57:49.669293
- Title: Policy Gradient with Kernel Quadrature
- Title(参考訳): Kernel Quadratureによる政策グラディエント
- Authors: Satoshi Hayakawa, Tetsuro Morimura
- Abstract要約: 我々は,ディスカウントされたリターンや報酬のプロセスモデリングを構築し,エピソードの空間上で正の定型カーネルを導出する。
我々は、サンプルエピソードの情報を圧縮し、削減されたエピソードを勾配更新のためにポリシーネットワークに渡す「エポゾディック」カーネル二次法を実行する。
- 参考スコア(独自算出の注目度): 2.900810893770134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward evaluation of episodes becomes a bottleneck in a broad range of
reinforcement learning tasks. Our aim in this paper is to select a small but
representative subset of a large batch of episodes, only on which we actually
compute rewards for more efficient policy gradient iterations. We build a
Gaussian process modeling of discounted returns or rewards to derive a positive
definite kernel on the space of episodes, run an "episodic" kernel quadrature
method to compress the information of sample episodes, and pass the reduced
episodes to the policy network for gradient updates. We present the theoretical
background of this procedure as well as its numerical illustrations in MuJoCo
and causal discovery tasks.
- Abstract(参考訳): エピソードのリワード評価は、幅広い強化学習タスクにおいてボトルネックとなる。
本論文の目的は,多数のエピソードの小さなが代表的な部分を選択することであり,より効率的なポリシー勾配イテレーションに対して報奨を実際に計算することのみである。
我々は,エピソードの空間上の正定値カーネルを導出するために,ディスカウントされたリターンや報酬のガウス過程モデルを構築し,サンプルエピソードの情報圧縮のための "episodic" kernel quadratureメソッドを実行し,縮小されたエピソードを勾配更新のためにポリシーネットワークに渡す。
本手法の理論的背景と,MuJoCoの数値図面および因果発見タスクについて述べる。
関連論文リスト
- Scalable Signature-Based Distribution Regression via Reference Sets [1.8980236415886387]
パスシグネチャは、シグネチャベースの機能を通じてパスに符号化された情報を活用するために使用される。
アートDRソリューションの現在の状態は、メモリ集約的で、高コストである。
この計算ボトルネックは、アプリケーションを小さなサンプルサイズに制限する。
本稿では,上記の問題に対処する手法を提案する。
また,多様な学習タスクにDRを使用できるパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-11T18:58:28Z) - PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods [0.0]
本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。
政策ネットワークに報酬分配情報を統合することで、政策エージェントが強化された能力を取得するという経験的結果を示す。
論文 参考訳(メタデータ) (2024-07-18T04:18:52Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Fast Kernel Methods for Generic Lipschitz Losses via $p$-Sparsified
Sketches [3.3379026542599934]
カーネル法(カーネルほう、英: Kernel method)は、計算上の重要な制約に悩まされながら、固い理論の基礎を享受する学習アルゴリズムである。
散在したガウス(およびラデマッハ)のスケッチは、理論上有意な近似を生成する。
単一および複数出力のカーネル問題に対して過剰なリスク境界を導出し、汎用的なリプシッツ損失を与える。
論文 参考訳(メタデータ) (2022-06-08T11:50:23Z) - Sensing Cox Processes via Posterior Sampling and Positive Bases [56.82162768921196]
本研究では,空間統計学から広く用いられている点過程の適応センシングについて検討する。
我々は、この強度関数を、特別に構築された正の基底で表される、歪んだガウス過程のサンプルとしてモデル化する。
我々の適応センシングアルゴリズムはランゲヴィン力学を用いており、後続サンプリング(textscCox-Thompson)と後続サンプリング(textscTop2)の原理に基づいている。
論文 参考訳(メタデータ) (2021-10-21T14:47:06Z) - Uniform Sampling over Episode Difficulty [55.067544082168624]
本稿では,その難易度に基づいて,エピソードサンプリング分布を近似する手法を提案する。
提案手法はアルゴリズムに依存しないため,これらの知見を利用して数発の学習精度を向上させることができる。
論文 参考訳(メタデータ) (2021-08-03T17:58:54Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - Deep Gaussian Processes for Few-Shot Segmentation [66.08463078545306]
少数ショットのセグメンテーションは難しい作業であり、いくつかの注釈付きサンプルから一般化可能な表現を抽出する必要がある。
ガウス過程(GP)回帰に基づく数ショット学習者定式化を提案する。
PASCAL-5i と COCO-20i では mIoU スコアが68.1 と 49.8 である。
論文 参考訳(メタデータ) (2021-03-30T17:56:32Z) - Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。
この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。
条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2020-11-08T17:09:37Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。