論文の概要: Efficient search of active inference policy spaces using k-means
- arxiv url: http://arxiv.org/abs/2209.02550v2
- Date: Wed, 7 Sep 2022 04:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 11:50:32.024254
- Title: Efficient search of active inference policy spaces using k-means
- Title(参考訳): k平均を用いた能動推論ポリシー空間の効率的な探索
- Authors: Alex B. Kiefer, and Mahault Albarracin
- Abstract要約: 本研究では,各ポリシーをベクトル空間への埋め込みにマッピングすることで,大規模なポリシー空間を効率的に探索することのできる,アクティブな推論におけるポリシー選択手法を開発する。
政策埋め込み空間を作成するための様々なアプローチを検討し、k平均クラスタリングを用いて代表点を選択することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We develop an approach to policy selection in active inference that allows us
to efficiently search large policy spaces by mapping each policy to its
embedding in a vector space. We sample the expected free energy of
representative points in the space, then perform a more thorough policy search
around the most promising point in this initial sample. We consider various
approaches to creating the policy embedding space, and propose using k-means
clustering to select representative points. We apply our technique to a
goal-oriented graph-traversal problem, for which naive policy selection is
intractable for even moderately large graphs.
- Abstract(参考訳): 我々は、各ポリシーをベクトル空間への埋め込みにマッピングすることで、大きなポリシー空間を効率的に探索できるアクティブ推論におけるポリシー選択手法を開発した。
空間内の代表点の期待自由エネルギーをサンプリングし、この初期サンプルにおいて最も期待できる点についてより徹底的なポリシー探索を行う。
ポリシ埋め込み空間の作成には様々なアプローチを検討し,k-meansクラスタリングを用いて代表点を選択することを提案する。
目的指向グラフトラバース問題に適用し, 極端に大きなグラフに対して, ナイーブなポリシー選択が難解であることを示す。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Policy Manifold Search: Exploring the Manifold Hypothesis for
Diversity-based Neuroevolution [4.920145245773581]
本稿では,神経進化による多様性に基づく新しい政策探索法を提案する。
政策探索に原則的アプローチを提供する品質多様性フレームワークを用いている。
また、逆マッピング関数のJacobianを使用して、表現空間での検索を案内します。
論文 参考訳(メタデータ) (2021-04-27T18:52:03Z) - Exploiting Learned Policies in Focal Search [0.49723239539321284]
政策学習を有界-準最適探索アルゴリズムに統合する方法を示す。
提案手法は3つのベンチマーク領域を対象とし,15-puzzleでは150万のサンプルを用いて学習したニューラルネットワークを用いて解析を行った。
本稿では,emphDiscrepancy Focal Searchにおいて,対応する経路が最適経路の接頭辞である確率の近似を最大化するノードを拡大し,実行時および解の質の観点から最もよい結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-21T13:50:40Z) - Policy Manifold Search for Improving Diversity-based Neuroevolution [4.920145245773581]
ニューロエボリューションによる多様性に基づく政策探索の新たなアプローチを提案する。
当社のアプローチは品質多様性フレームワークに従ってポリシーを反復的に収集する。
我々は、逆変換のヤコビアンを用いて、潜在空間の探索を導く。
論文 参考訳(メタデータ) (2020-12-15T23:59:49Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。