論文の概要: Learning to Find Proofs and Theorems by Learning to Refine Search
Strategies
- arxiv url: http://arxiv.org/abs/2205.14229v1
- Date: Fri, 27 May 2022 20:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:16:07.992936
- Title: Learning to Find Proofs and Theorems by Learning to Refine Search
Strategies
- Title(参考訳): 探索戦略を再定義する学習による証明と理論の学習
- Authors: Jonathan Laurent and Andr\'e Platzer
- Abstract要約: AlphaZeroスタイルのエージェントは、非決定論的プログラムとして表される高度な専門家戦略を洗練するために自己学習を行っている。
類似教師エージェントは、学習者にとって適切な関連性と難易度のあるタスクを生成するための自己学習を行う。
- 参考スコア(独自算出の注目度): 0.9137554315375919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new approach to automated theorem proving and deductive program
synthesis where an AlphaZero-style agent is self-training to refine a
high-level expert strategy expressed as a nondeterministic program. An
analogous teacher agent is self-training to generate tasks of suitable
relevance and difficulty for the learner. This allows leveraging minimal
amounts of domain knowledge to tackle problems for which training data is
unavailable or hard to synthesize. We illustrate our approach on the problem of
loop invariant synthesis for imperative programs and using neural networks to
refine both the teacher and solver strategies.
- Abstract(参考訳): 非決定論的プログラムとして表現される高水準のエキスパート戦略を洗練するために,alphazero型エージェントが自己学習する自動定理証明と推論プログラム合成のための新しいアプローチを提案する。
類似教師エージェントは、学習者にとって適切な関連性と難易度のあるタスクを生成するための自己学習を行う。
これにより、最小限のドメイン知識を活用して、トレーニングデータが利用できない、あるいは合成が難しい問題に取り組むことができる。
本稿では,命令型プログラムのループ不変合成問題と,ニューラルネットワークを用いて教師と解法の両方を洗練する手法について述べる。
関連論文リスト
- Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Travel the Same Path: A Novel TSP Solving Strategy [0.0]
我々は、必要に応じて適切な選択を行う決定論的アルゴリズムを支援する模倣学習フレームワークについて検討する。
我々は、模倣学習フレームワークの下で訓練されたグラフニューラルネットワークの強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-12T03:56:37Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Program Synthesis Guided Reinforcement Learning [34.342362868490525]
強化学習の鍵となる課題は、長期計画と制御問題を解決することである。
最近の研究は、これらの設定で学習アルゴリズムを導くのに役立つプログラムを活用することを提案している。
本稿では,プログラム合成を利用して指導プログラムを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T16:05:32Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z) - Reinforcement Learning for Variable Selection in a Branch and Bound
Algorithm [0.10499611180329801]
現実世界のインスタンスのパターンを活用して、与えられた問題に最適化された新しいブランチ戦略をスクラッチから学習します。
本稿では,この課題に特化して設計された新しい強化学習手法であるFMSTSを提案する。
論文 参考訳(メタデータ) (2020-05-20T13:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。