論文の概要: A Reinforcement Learning Environment for Mathematical Reasoning via
Program Synthesis
- arxiv url: http://arxiv.org/abs/2107.07373v1
- Date: Thu, 15 Jul 2021 14:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 18:14:47.314489
- Title: A Reinforcement Learning Environment for Mathematical Reasoning via
Program Synthesis
- Title(参考訳): プログラム合成による数学的推論のための強化学習環境
- Authors: Joseph Palermo, Johnny Ye, Alok Singh
- Abstract要約: 我々はDeepMindの数学データセットを強化学習環境に変換する。
環境における各アクションは、演算子または入力を離散計算グラフに追加する。
正解を計算するグラフは正の報酬をもたらし、ポリシーの最適化により問題文に条件付き計算グラフを構築することができる。
- 参考スコア(独自算出の注目度): 1.1602089225841632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We convert the DeepMind Mathematics Dataset into a reinforcement learning
environment by interpreting it as a program synthesis problem. Each action
taken in the environment adds an operator or an input into a discrete compute
graph. Graphs which compute correct answers yield positive reward, enabling the
optimization of a policy to construct compute graphs conditioned on problem
statements. Baseline models are trained using Double DQN on various subsets of
problem types, demonstrating the capability to learn to correctly construct
graphs despite the challenges of combinatorial explosion and noisy rewards.
- Abstract(参考訳): 我々はDeepMind数学データセットをプログラム合成問題として解釈することで強化学習環境に変換する。
環境における各アクションは、演算子または入力を離散計算グラフに追加する。
正解を計算するグラフは正の報酬をもたらし、ポリシーの最適化により問題文に条件付き計算グラフを構築することができる。
ベースラインモデルは、様々な問題型のサブセット上でdouble dqnを使用してトレーニングされ、組み合わせの爆発と騒がしい報酬の課題にもかかわらず、グラフを正しく構築する能力を示す。
関連論文リスト
- Differentiable Proximal Graph Matching [40.41380102260085]
微分可能近位グラフマッチング(DPGM)と呼ばれる近位演算子に基づくグラフマッチングアルゴリズムを提案する。
アルゴリズム全体をグラフ親和性行列からノード対応の予測への微分可能な写像とみなすことができる。
数値実験により、PGMは様々なデータセット上で既存のグラフマッチングアルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2024-05-26T08:17:13Z) - Polynomial Graphical Lasso: Learning Edges from Gaussian Graph-Stationary Signals [18.45931641798935]
本稿では,Nudal信号からグラフ構造を学習する新しい手法であるPolynomial Graphical Lasso (PGL)を紹介する。
我々の重要な貢献は、グラフ上のガウス的および定常的な信号であり、グラフ学習ラッソの開発を可能にすることである。
論文 参考訳(メタデータ) (2024-04-03T10:19:53Z) - Localized Contrastive Learning on Graphs [110.54606263711385]
局所グラフコントラスト学習(Local-GCL)という,シンプルだが効果的なコントラストモデルを導入する。
その単純さにもかかわらず、Local-GCLは、様々なスケールと特性を持つグラフ上の自己教師付きノード表現学習タスクにおいて、非常に競争力のある性能を達成する。
論文 参考訳(メタデータ) (2022-12-08T23:36:00Z) - A Differentiable Approach to Combinatorial Optimization using Dataless
Neural Networks [20.170140039052455]
我々は、ソリューションを生成するニューラルネットワークのトレーニングにデータを必要としないという、根本的に異なるアプローチを提案する。
特に、最適化問題をニューラルネットワークに還元し、データレストレーニングスキームを用いて、それらのパラメータが関心の構造をもたらすように、ネットワークのパラメータを洗練する。
論文 参考訳(メタデータ) (2022-03-15T19:21:31Z) - Graph Kernel Neural Networks [53.91024360329517]
本稿では、グラフ上の内部積を計算するカーネル関数であるグラフカーネルを用いて、標準畳み込み演算子をグラフ領域に拡張することを提案する。
これにより、入力グラフの埋め込みを計算する必要のない完全に構造的なモデルを定義することができる。
私たちのアーキテクチャでは,任意の種類のグラフカーネルをプラグインすることが可能です。
論文 参考訳(メタデータ) (2021-12-14T14:48:08Z) - CombOptNet: Fit the Right NP-Hard Problem by Learning Integer
Programming Constraints [20.659237363210774]
我々は、コスト項と制約の両方を学習できる層として、整数型プログラミングソルバをニューラルネットワークアーキテクチャに統合することを目指している。
結果として得られたエンドツーエンドのトレーニング可能なアーキテクチャは、生データから特徴を共同で抽出し、最先端の整数プログラミング解法で適切な(学習した)問題を解く。
論文 参考訳(メタデータ) (2021-05-05T21:52:53Z) - Deep Reinforcement Learning of Graph Matching [63.469961545293756]
ノードとペアの制約下でのグラフマッチング(GM)は、最適化からコンピュータビジョンまでの領域におけるビルディングブロックである。
GMのための強化学習ソルバを提案する。
rgmはペアワイズグラフ間のノード対応を求める。
本手法は,フロントエンドの特徴抽出と親和性関数学習に焦点をあてるという意味において,従来のディープグラフマッチングモデルと異なる。
論文 参考訳(メタデータ) (2020-12-16T13:48:48Z) - Multilayer Clustered Graph Learning [66.94201299553336]
我々は、観測された層を代表グラフに適切に集約するために、データ忠実度用語として対照的な損失を用いる。
実験により,本手法がクラスタクラスタw.r.tに繋がることが示された。
クラスタリング問題を解くためのクラスタリングアルゴリズムを学習する。
論文 参考訳(メタデータ) (2020-10-29T09:58:02Z) - Can We Learn Heuristics For Graphical Model Inference Using
Reinforcement Learning? [114.24881214319048]
我々は、強化学習を用いて、高次条件ランダム場(CRF)における推論を解くためのプログラム、すなわち、ポリシーを学習できることを示します。
本手法は,ポテンシャルの形式に制約を加えることなく,推論タスクを効率的に解く。
論文 参考訳(メタデータ) (2020-04-27T19:24:04Z) - Graph Ordering: Towards the Optimal by Learning [69.72656588714155]
グラフ表現学習は、ノード分類、予測、コミュニティ検出など、多くのグラフベースのアプリケーションで顕著な成功を収めている。
しかし,グラフ圧縮やエッジ分割などのグラフアプリケーションでは,グラフ表現学習タスクに還元することは極めて困難である。
本稿では,このようなアプリケーションの背後にあるグラフ順序付け問題に対して,新しい学習手法を用いて対処することを提案する。
論文 参考訳(メタデータ) (2020-01-18T09:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。