論文の概要: Reclaiming the Source of Programmatic Policies: Programmatic versus Latent Spaces
- arxiv url: http://arxiv.org/abs/2410.12166v1
- Date: Wed, 16 Oct 2024 02:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:47.739367
- Title: Reclaiming the Source of Programmatic Policies: Programmatic versus Latent Spaces
- Title(参考訳): プログラム型政策の源泉の再生--プログラム型と潜在型空間
- Authors: Tales H. Carvalho, Kenneth Tjhia, Levi H. S. Lelis,
- Abstract要約: プログラム空間は、潜在空間で観測されたような行動損失の値を示す。
プログラム空間で探索するアルゴリズムは、LEAPSやHPRLよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 10.654876600946865
- License:
- Abstract: Recent works have introduced LEAPS and HPRL, systems that learn latent spaces of domain-specific languages, which are used to define programmatic policies for partially observable Markov decision processes (POMDPs). These systems induce a latent space while optimizing losses such as the behavior loss, which aim to achieve locality in program behavior, meaning that vectors close in the latent space should correspond to similarly behaving programs. In this paper, we show that the programmatic space, induced by the domain-specific language and requiring no training, presents values for the behavior loss similar to those observed in latent spaces presented in previous work. Moreover, algorithms searching in the programmatic space significantly outperform those in LEAPS and HPRL. To explain our results, we measured the "friendliness" of the two spaces to local search algorithms. We discovered that algorithms are more likely to stop at local maxima when searching in the latent space than when searching in the programmatic space. This implies that the optimization topology of the programmatic space, induced by the reward function in conjunction with the neighborhood function, is more conducive to search than that of the latent space. This result provides an explanation for the superior performance in the programmatic space.
- Abstract(参考訳): 最近の研究は、部分的に観測可能なマルコフ決定プロセス(POMDP)のプログラムポリシーを定義するために使用される、ドメイン固有言語の潜在空間を学習するシステムであるLEAPSとHPRLを導入している。
これらのシステムは、プログラム行動の局所性を達成することを目的とした行動損失などの損失を最適化しながら、潜在空間を誘導する。
本稿では,ドメイン固有言語によって誘導され,訓練を要さないプログラム空間が,以前の研究で示された潜在空間と同様の行動損失の値を示すことを示す。
さらに、プログラム空間で探索するアルゴリズムは、LEAPSやHPRLよりも大幅に優れている。
この結果を説明するために,2つの空間の「親和性」を局所探索アルゴリズムに測定した。
アルゴリズムは、プログラム空間で探索する時よりも、潜伏空間で探索する時の方が局所的な最大値で停止する傾向にあることがわかった。
これは、プログラム空間の最適化トポロジーが、近傍関数と共役して報酬関数によって誘導され、潜在空間よりも探索に導かれることを意味する。
この結果は、プログラム空間における優れた性能についての説明を与える。
関連論文リスト
- Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Searching for Programmatic Policies in Semantic Spaces [13.466710708566177]
本稿では,言語の意味空間の近似内を探索するプログラムポリシーを合成する代替手法を提案する。
我々の理論的根拠は、アルゴリズムが空間を探索する際に異なるエージェントの挙動を評価する場合、探索がより効率的であるということである。
論文 参考訳(メタデータ) (2024-05-08T21:24:49Z) - Optimization of Topology-Aware Job Allocation on a High-Performance
Computing Cluster by Neural Simulated Annealing [4.215562786525106]
トポロジ対応ジョブ割り当て問題(TJAP)は、特定のアプリケーションにノードを割り当てる方法を決定する問題である。
本稿では,通信ホップのコストを最小化することを目的とした,ファットツリーネットワーク上でのウィンドウベースTJAPについて検討する。
静的連続性割当て戦略(SCAS)と動的連続性割当て戦略(DCAS)の2つの特別な割当て戦略が検討されている。
論文 参考訳(メタデータ) (2023-02-06T03:13:03Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Memetic algorithms for Spatial Partitioning problems [26.73720392872553]
本稿では,実世界のデータセットにおける空間分割という,特定のタイプのSOPに焦点を当てる。
我々は,Swarm-based spatial memetic algorithm (SPATIAL) と呼ばれる単純だが効果的なアルゴリズムを提案し,それを校内限定問題(restricting problem)で検証した。
論文 参考訳(メタデータ) (2022-08-04T20:05:46Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Discovering and Exploiting Sparse Rewards in a Learned Behavior Space [0.46736439782713946]
スパース報酬設定における最適ポリシーの学習は、学習エージェントが行動の質に対するフィードバックをほとんど、あるいは全く持っていないため困難である。
STAXは, 与えられた報酬を効率的に最適化しつつ, 行動空間を学習し, 探索するために設計されたアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-02T22:21:11Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Selection-Expansion: A Unifying Framework for Motion-Planning and
Diversity Search Algorithms [69.87173070473717]
本稿では,2つの多様性探索アルゴリズム,ノベルティ探索アルゴリズムとゴール探索処理アルゴリズムの特性について検討する。
mpアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさ、あるいは滑らかさの欠如が検索効率において重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2021-04-10T13:52:27Z) - Learning Differentiable Programs with Admissible Neural Heuristics [43.54820901841979]
ドメイン固有言語におけるプログラムとして表現される微分可能関数の学習問題について検討する。
我々は、この最適化問題を、プログラム構文のトップダウン導出を符号化した重み付きグラフの探索として構成する。
私たちの重要なイノベーションは、さまざまなニューラルネットワークのクラスを、プログラムの空間上の連続的な緩和と見なすことです。
論文 参考訳(メタデータ) (2020-07-23T16:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。