論文の概要: Code World Models for Parameter Control in Evolutionary Algorithms
- arxiv url: http://arxiv.org/abs/2602.22260v1
- Date: Wed, 25 Feb 2026 01:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.332582
- Title: Code World Models for Parameter Control in Evolutionary Algorithms
- Title(参考訳): 進化的アルゴリズムにおけるパラメータ制御のためのコードワールドモデル
- Authors: Camilo Chacón Sartori, Guillem Rodríguez Corominas,
- Abstract要約: 環境ダイナミクスを予測するPythonプログラムであるCode World Models (CWMs)を拡張します。
CWM-greedyは理論上最適な政策の6%以内に機能する。
オラクルの知識を使った収集ポリシーを使わずに100%の成功率を達成する。
- 参考スコア(独自算出の注目度): 0.42970700836450476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can an LLM learn how an optimizer behaves -- and use that knowledge to control it? We extend Code World Models (CWMs), LLM-synthesized Python programs that predict environment dynamics, from deterministic games to stochastic combinatorial optimization. Given suboptimal trajectories of $(1{+}1)$-$\text{RLS}_k$, the LLM synthesizes a simulator of the optimizer's dynamics; greedy planning over this simulator then selects the mutation strength $k$ at each step. On \lo{} and \onemax{}, CWM-greedy performs within 6\% of the theoretically optimal policy -- without ever seeing optimal-policy trajectories. On \jump{$_k$}, where a deceptive valley causes all adaptive baselines to fail (0\% success rate), CWM-greedy achieves 100\% success rate -- without any collection policy using oracle knowledge of the gap parameter. On the NK-Landscape, where no closed-form model exists, CWM-greedy outperforms all baselines across fifteen independently generated instances ($36.94$ vs.\ $36.32$; $p<0.001$) when the prompt includes empirical transition statistics. The CWM also outperforms DQN in sample efficiency (200 offline trajectories vs.\ 500 online episodes), success rate (100\% vs.\ 58\%), and generalization ($k{=}3$: 78\% vs.\ 0\%). Robustness experiments confirm stable synthesis across 5 independent runs.
- Abstract(参考訳): LLMはオプティマイザの振る舞いを学べますか?
我々は、決定論的ゲームから確率論的組合せ最適化まで、環境力学を予測するLLM合成PythonプログラムであるCode World Models (CWMs)を拡張した。
1{+}1)$-$\text{RLS}_k$の最適軌道が与えられた場合、LLMはオプティマイザのダイナミクスのシミュレータを合成する。
\lo{} と \onemax{} では、CWM-greedy は理論上最適な政策の 6 % 以内で実行され、最適な政治軌道は見つからない。
偽りの谷ですべての適応的ベースラインが失敗する(0\%の成功率)場合、CWM-greedyは、ギャップパラメータのオラクル知識を使った収集ポリシーを使わずに、100\%の成功率を達成する。
閉形式モデルがないNK-Landscapeでは、CWM-greedyは15の独立に生成されたインスタンス(36.94$対)で全てのベースラインを上回ります。
実験的な遷移統計を含む場合、$36.32$; $p<0.001$) となる。
CWMはサンプル効率(200のオフライン軌道対)でもDQNを上回っている。
500のオンラインエピソード、成功率(100\%対0。
58\%)、および一般化(k{=}3$:78\% vs。
0 %)。
ロバストネス実験は、5つの独立ランで安定な合成を確認できる。
関連論文リスト
- Separating Oblivious and Adaptive Models of Variable Selection [13.61388474201292]
最適$ell_infty$誤差は、ほぼ直線時間で$gtrsim k2$サンプルで達成可能であることを示す。
本研究は,一括適応型 $ モデルの予備試験で結論付ける。
論文 参考訳(メタデータ) (2026-02-18T16:10:35Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training [16.037614012166063]
Gradient Descent(SGD)は、トレーニング中に状態変数をトラッキングしないため、ステートレスで拡張性がある。
本研究では,SGDを非定常的に前処理することで,LLMのトレーニングを行うAdamと同じ性能が得られることを示す。
正規化は勾配を安定化させ,損失景観の局所的な曲率に反することを示す。これによってSWAN (SGD with Whitening and Normalization) が成立し,任意の状態を保存する必要がなくなる。
論文 参考訳(メタデータ) (2024-12-17T18:13:18Z) - Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization [11.11876897168701]
対人的マルコフ決定過程における学習の問題を考える。
本稿では,APO-MVPと呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-08T08:06:45Z) - Towards a Linear-Ramp QAOA protocol: Evidence of a scaling advantage in solving some combinatorial optimization problems [0.46040036610482665]
線形ランプQAOAは,様々な最適化問題にまたがる最適解を効率的に近似できることを示す。
最大$N_q = 109$ qubits,$p=100$,21,200 CNOTゲートを必要とする回路を有する複数のQPU上でのLR-QAOAの結果を示す。
論文 参考訳(メタデータ) (2024-05-15T08:07:52Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Asynchronous Stochastic Optimization Robust to Arbitrary Delays [54.61797739710608]
遅延勾配の最適化を考えると、ステップt$毎に、アルゴリズムは古い計算を使って更新する - d_t$ for arbitrary delay $d_t gradient。
本実験は,遅延分布が歪んだり重くなったりした場合のアルゴリズムの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2021-06-22T15:50:45Z) - Policy Finetuning: Bridging Sample-Efficient Offline and Online
Reinforcement Learning [59.02541753781001]
本稿では、学習者が「参照ポリシー」にさらにアクセス可能なオンラインRLの政策微調整に関する理論的研究を開始する。
我々はまず、$varepsilon$$widetildeO(H3SCstar/varepsilon2)$のエピソード内で、ほぼ最適ポリシーを求める鋭いオフライン還元アルゴリズムを設計する。
次に、Omega(H3SminCstar, A/varepsilon2)$のサンプル複雑性を、任意のポリシー微調整アルゴリズムに対して低いバウンドで設定します。
論文 参考訳(メタデータ) (2021-06-09T08:28:55Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。