論文の概要: CircuitBuilder: From Polynomials to Circuits via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.17075v1
- Date: Tue, 17 Mar 2026 19:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.366434
- Title: CircuitBuilder: From Polynomials to Circuits via Reinforcement Learning
- Title(参考訳): CircuitBuilder: 強化学習による多項式から回路へ
- Authors: Weikun K. Zhang, Rohan Pandey, Bhaumik Mehta, Kaijie Jin, Naomi Morato, Archit Ganapule, Michael Ruofan Zeng, Jarod Alper,
- Abstract要約: 本稿では,加算ゲートと乗算ゲートを用いた効率的な演算回路の探索問題について検討する。
我々は、Alphaスタイルのトレーニングループを実装し、PPO+MCTS(Monte Carlo Tree Search)とSAC(Soft Actor-Critic)の2つのアプローチを比較した。
これらの結果から,回路合成は自己改善探索ポリシーを研究するためのコンパクトで検証可能な設定であることが示唆された。
- 参考スコア(独自算出の注目度): 1.0888658827518556
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Motivated by auto-proof generation and Valiant's VP vs. VNP conjecture, we study the problem of discovering efficient arithmetic circuits to compute polynomials, using addition and multiplication gates. We formulate this problem as a single-player game, where an RL agent attempts to build the circuit within a fixed number of operations. We implement an AlphaZero-style training loop and compare two approaches: Proximal Policy Optimization with Monte Carlo Tree Search (PPO+MCTS) and Soft Actor-Critic (SAC). SAC achieves the highest success rates on two-variable targets, while PPO+MCTS scales to three variables and demonstrates steady improvement on harder instances. These results suggest that polynomial circuit synthesis is a compact, verifiable setting for studying self-improving search policies.
- Abstract(参考訳): 自動防御生成とValiantのVP vs. VNP予想により、加算ゲートと乗算ゲートを用いて多項式を計算するための効率的な演算回路を発見する問題について検討する。
我々はこの問題を,RLエージェントが一定数の操作で回路を構築しようとする単一プレイヤーゲームとして定式化する。
我々はAlphaZeroスタイルのトレーニングループを実装し,PPO+MCTS (Proximal Policy Optimization with Monte Carlo Tree Search) とSAC (Soft Actor-Critic) の2つのアプローチを比較した。
SACは2変数の目標に対して最高成功率を達成し、PPO+MCTSは3変数にスケールし、より難しいインスタンスに対して安定した改善を示す。
これらの結果から,多項式回路合成は自己改善探索ポリシーを研究するためのコンパクトで検証可能な設定であることが示唆された。
関連論文リスト
- Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models [85.76129014170778]
推論時間計算は、複数の独立解の中から選択するか、あるいは自己精製を通じて逐次的にスケールすることができる。
進化的手法にインスパイアされたテスト時間スケーリング手法であるRecursive Self-Aggregation (RSA)を提案する。
論文 参考訳(メタデータ) (2025-09-30T17:58:03Z) - Discovering Hidden Algebraic Structures via Transformers with Rank-Aware Beam GRPO [0.7885422274206872]
我々は,問題複雑性のきめ細かい制御が可能な合成データ生成パイプラインを開発した。
第二に、教師付き学習を通してトランスフォーマーモデルを訓練し、スケーリング行動と一般化可能性を含む4つの重要な次元にわたって評価する。
第3に,厳密な代数問題に適したランク対応強化学習法であるビーム群相対ポリシー(BGRPO)を提案する。
論文 参考訳(メタデータ) (2025-08-21T17:58:50Z) - Deep reinforcement learning applied to an assembly sequence planning
problem with user preferences [1.0558951653323283]
本稿では,アセンブリシーケンス計画問題におけるDRL手法の実装に対するアプローチを提案する。
提案手法では,RL環境のパラメトリックな動作を導入し,トレーニング時間とサンプル効率を改善する。
その結果,人的相互作用を伴う組立シーケンス計画問題への深層強化学習の適用の可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-13T14:25:15Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning Large Neighborhood Search Policy for Integer Programming [14.089039170072084]
整数プログラミング (IP) のための大規模近傍探索 (LNS) ポリシーを学習するための深層強化学習 (RL) 手法を提案する。
各変数のバイナリ決定に分解することで、すべてのサブセットを表現します。
次に、ニューラルネットワークを設計し、各変数のポリシーを並列に学習し、カスタマイズされたアクター批判アルゴリズムでトレーニングする。
論文 参考訳(メタデータ) (2021-11-01T09:10:49Z) - Accelerating Quadratic Optimization with Reinforcement Learning [39.64039435793601]
強化学習は、収束を加速するためにパラメータをチューニングするためのポリシーを学ぶことができるかを示す。
我々のポリシーであるRLQPは最先端のQPソルバを最大3倍に上回ります。
RLQPは、異なるアプリケーションから異なる次元と構造を持つ以前に見られなかった問題に驚くほどよく一般化する。
論文 参考訳(メタデータ) (2021-07-22T17:59:10Z) - Recomposing the Reinforcement Learning Building Blocks with
Hypernetworks [19.523737925041278]
一次ネットワークが条件付き動的ネットワークの重みを決定することを示す。
このアプローチは勾配近似を改善し、学習ステップの分散を低減する。
我々は、RL(TD3とSAC)とMeta-RL(MAMLとPEARL)の両方において、異なる移動タスクと異なるアルゴリズムで一貫した改善を示す。
論文 参考訳(メタデータ) (2021-06-12T19:43:12Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。