Fugu-MT 論文翻訳(概要): Policy Gradient with Kernel Quadrature

論文の概要: Policy Gradient with Kernel Quadrature

arxiv url: http://arxiv.org/abs/2310.14768v1
Date: Mon, 23 Oct 2023 10:12:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 20:57:49.669293
Title: Policy Gradient with Kernel Quadrature
Title（参考訳）: Kernel Quadratureによる政策グラディエント
Authors: Satoshi Hayakawa, Tetsuro Morimura
Abstract要約: 我々は,ディスカウントされたリターンや報酬のプロセスモデリングを構築し,エピソードの空間上で正の定型カーネルを導出する。我々は、サンプルエピソードの情報を圧縮し、削減されたエピソードを勾配更新のためにポリシーネットワークに渡す「エポゾディック」カーネル二次法を実行する。
参考スコア（独自算出の注目度）: 2.900810893770134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward evaluation of episodes becomes a bottleneck in a broad range of reinforcement learning tasks. Our aim in this paper is to select a small but representative subset of a large batch of episodes, only on which we actually compute rewards for more efficient policy gradient iterations. We build a Gaussian process modeling of discounted returns or rewards to derive a positive definite kernel on the space of episodes, run an "episodic" kernel quadrature method to compress the information of sample episodes, and pass the reduced episodes to the policy network for gradient updates. We present the theoretical background of this procedure as well as its numerical illustrations in MuJoCo and causal discovery tasks.
Abstract（参考訳）: エピソードのリワード評価は、幅広い強化学習タスクにおいてボトルネックとなる。本論文の目的は,多数のエピソードの小さなが代表的な部分を選択することであり,より効率的なポリシー勾配イテレーションに対して報奨を実際に計算することのみである。我々は,エピソードの空間上の正定値カーネルを導出するために,ディスカウントされたリターンや報酬のガウス過程モデルを構築し,サンプルエピソードの情報圧縮のための "episodic" kernel quadratureメソッドを実行し,縮小されたエピソードを勾配更新のためにポリシーネットワークに渡す。本手法の理論的背景と,MuJoCoの数値図面および因果発見タスクについて述べる。

関連論文リスト

Enhancing Path Planning Performance through Image Representation Learning of High-Dimensional Configuration Spaces [0.4143603294943439]
障害物のある未知のシーンにおける経路計画タスクを高速化する新しい手法を提案する。高速探索ランダムツリーアルゴリズムを用いて,衝突のない経路の経路点分布を近似した。本実験は,臨界時間制約下での経路計画タスクを高速化する有望な結果を実証する。
論文参考訳（メタデータ） (2025-01-11T21:14:52Z)
Scalable Signature-Based Distribution Regression via Reference Sets [1.8980236415886387]
パスシグネチャは、シグネチャベースの機能を通じてパスに符号化された情報を活用するために使用される。アートDRソリューションの現在の状態は、メモリ集約的で、高コストである。この計算ボトルネックは、アプリケーションを小さなサンプルサイズに制限する。本稿では,上記の問題に対処する手法を提案する。また,多様な学習タスクにDRを使用できるパイプラインを提案する。
論文参考訳（メタデータ） (2024-10-11T18:58:28Z)
PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods [0.0]
本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。政策ネットワークに報酬分配情報を統合することで、政策エージェントが強化された能力を取得するという経験的結果を示す。
論文参考訳（メタデータ） (2024-07-18T04:18:52Z)
Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。本稿では,直感的に設計を記述し,設計選択について説明する。本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文参考訳（メタデータ） (2023-10-31T16:15:13Z)
Fast Kernel Methods for Generic Lipschitz Losses via $p$-Sparsified Sketches [3.3379026542599934]
カーネル法(カーネルほう、英: Kernel method)は、計算上の重要な制約に悩まされながら、固い理論の基礎を享受する学習アルゴリズムである。散在したガウス(およびラデマッハ)のスケッチは、理論上有意な近似を生成する。単一および複数出力のカーネル問題に対して過剰なリスク境界を導出し、汎用的なリプシッツ損失を与える。
論文参考訳（メタデータ） (2022-06-08T11:50:23Z)
Sensing Cox Processes via Posterior Sampling and Positive Bases [56.82162768921196]
本研究では,空間統計学から広く用いられている点過程の適応センシングについて検討する。我々は、この強度関数を、特別に構築された正の基底で表される、歪んだガウス過程のサンプルとしてモデル化する。我々の適応センシングアルゴリズムはランゲヴィン力学を用いており、後続サンプリング(textscCox-Thompson)と後続サンプリング(textscTop2)の原理に基づいている。
論文参考訳（メタデータ） (2021-10-21T14:47:06Z)
Uniform Sampling over Episode Difficulty [55.067544082168624]
本稿では,その難易度に基づいて,エピソードサンプリング分布を近似する手法を提案する。提案手法はアルゴリズムに依存しないため,これらの知見を利用して数発の学習精度を向上させることができる。
論文参考訳（メタデータ） (2021-08-03T17:58:54Z)
MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文参考訳（メタデータ） (2021-05-08T21:24:09Z)
Deep Gaussian Processes for Few-Shot Segmentation [66.08463078545306]
少数ショットのセグメンテーションは難しい作業であり、いくつかの注釈付きサンプルから一般化可能な表現を抽出する必要がある。ガウス過程(GP)回帰に基づく数ショット学習者定式化を提案する。 PASCAL-5i と COCO-20i では mIoU スコアが68.1 と 49.8 である。
論文参考訳（メタデータ） (2021-03-30T17:56:32Z)
Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文参考訳（メタデータ） (2020-11-08T17:09:37Z)
Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-15T16:41:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。