論文の概要: Efficient Neural Clause-Selection Reinforcement
- arxiv url: http://arxiv.org/abs/2503.07792v1
- Date: Mon, 10 Mar 2025 19:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:52.938746
- Title: Efficient Neural Clause-Selection Reinforcement
- Title(参考訳): 効率的なニューラルクロース選択強化
- Authors: Martin Suda,
- Abstract要約: 節選択のための節のスコアリングのためのニューラルネットワークアーキテクチャを提案する。
ネットワークをヴァンパイアの定理証明器に統合し、成功した証明試行から訓練する。
多様なTPTPベンチマークの実験では、ベースライン戦略よりもニューラルネットワークによる証明が改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Clause selection is arguably the most important choice point in saturation-based theorem proving. Framing it as a reinforcement learning (RL) task is a way to challenge the human-designed heuristics of state-of-the-art provers and to instead automatically evolve -- just from prover experiences -- their potentially optimal replacement. In this work, we present a neural network architecture for scoring clauses for clause selection that is powerful yet efficient to evaluate. Following RL principles to make design decisions, we integrate the network into the Vampire theorem prover and train it from successful proof attempts. An experiment on the diverse TPTP benchmark finds the neurally guided prover improve over a baseline strategy, from which it initially learns--in terms of the number of in-training-unseen problems solved under a practically relevant, short CPU instruction limit--by 20%.
- Abstract(参考訳): クロース選択は、飽和に基づく定理の証明において、間違いなく最も重要な選択点である。
強化学習(RL)タスクとして分類することは、最先端のプローバーの人間設計のヒューリスティックに挑戦する手段であり、代わりに、エビデンサの経験から自動的に進化する。
本研究では,節選択のための節のスコアリングのためのニューラルネットワークアーキテクチャを提案する。
設計決定を行うRLの原則に従い、ネットワークをヴァンパイアの定理証明器に統合し、成功した証明試行からトレーニングする。
多様なTPTPベンチマークの実験では、ニューラルネットワークで導かれた証明器がベースライン戦略よりも改善していることが判明した。
関連論文リスト
- Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。
画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:58:14Z) - Learning Rate Optimization for Deep Neural Networks Using Lipschitz Bandits [9.361762652324968]
適切に調整された学習率によって、より高速なトレーニングとテストの精度が向上する。
本稿では,ニューラルネットワークの学習速度を調整するためのLipschitz bandit-drivenアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-15T16:21:55Z) - Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - On-Device Learning with Binary Neural Networks [2.7040098749051635]
我々は、最近のCL分野の進歩とBNN(Binary Neural Networks)の効率を取り入れたCLソリューションを提案する。
バックボーンとしてのバイナリネットワークの選択は、低消費電力デバイスの制約を満たすために不可欠である。
論文 参考訳(メタデータ) (2023-08-29T13:48:35Z) - Deep Active Learning with Structured Neural Depth Search [18.180995603975422]
Active-iNASは、複数のモデルを訓練し、各アクティブラーニングサイクルの後に、その後のサンプルをクエリする最適な一般化性能でモデルを選択する。
本稿では,SVI(Structured Variational Inference)あるいはSNDS(Structured Neural Deep Search)と呼ばれる手法を用いた新しいアクティブ戦略を提案する。
同時に、理論上は、平均場推定に基づく現在のVIベースの手法が性能を低下させる可能性があることを実証している。
論文 参考訳(メタデータ) (2023-06-05T12:00:12Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Learning To Cut By Looking Ahead: Cutting Plane Selection via Imitation
Learning [80.45697245527019]
我々は、最良限の改善をもたらすカットを明示的に目指している欲求選択規則が、カット選択に対して強い決定を下すことを示す。
本研究では,頭頂部の専門家を対象とした模擬学習のための新しいニューラルアーキテクチャ(NeuralCut)を提案する。
論文 参考訳(メタデータ) (2022-06-27T16:07:27Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。