論文の概要: Deep reinforced learning heuristic tested on spin-glass ground states:
The larger picture
- arxiv url: http://arxiv.org/abs/2302.10848v2
- Date: Thu, 14 Sep 2023 13:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:30:21.298269
- Title: Deep reinforced learning heuristic tested on spin-glass ground states:
The larger picture
- Title(参考訳): スピングラス地盤状態における深層強化学習ヒューリスティック
- Authors: Stefan Boettcher (Emory U)
- Abstract要約: 著者は最適化を強化するための深い強化された学習アプローチを提示している。
特に、いくつかのスピングラス基底状態問題に対する結果を示す。
ここでは、これらの研究をより大きな文脈に置き、より小さなサンプルに対して主張される優越性は限界であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Changjun Fan et al. [Nature Communications
https://doi.org/10.1038/s41467-023-36363-w (2023)], the authors present a deep
reinforced learning approach to augment combinatorial optimization heuristics.
In particular, they present results for several spin glass ground state
problems, for which instances on non-planar networks are generally NP-hard, in
comparison with several Monte Carlo based methods, such as simulated annealing
(SA) or parallel tempering (PT). Indeed, those results demonstrate that the
reinforced learning improves the results over those obtained with SA or PT, or
at least allows for reduced runtimes for the heuristics before results of
comparable quality have been obtained relative to those other methods. To
facilitate the conclusion that their method is ''superior'', the authors pursue
two basic strategies: (1) A commercial GUROBI solver is called on to procure a
sample of exact ground states as a testbed to compare with, and (2) a
head-to-head comparison between the heuristics is given for a sample of larger
instances where exact ground states are hard to ascertain. Here, we put these
studies into a larger context, showing that the claimed superiority is at best
marginal for smaller samples and becomes essentially irrelevant with respect to
any sensible approximation of true ground states in the larger samples. For
example, this method becomes irrelevant as a means to determine stiffness
exponents $\theta$ in $d>2$, as mentioned by the authors, where the problem is
not only NP-hard but requires the subtraction of two almost equal ground-state
energies and systemic errors in each of $\approx 1\%$ found here are
unacceptable. This larger picture on the method arises from a straightforward
finite-size corrections study over the spin glass ensembles the authors employ,
using data that has been available for decades.
- Abstract(参考訳): In Changjun Fan et al.
[Nature Communications https://doi.org/10.1038/s41467-023-36363-w (2023)],著者らは組合せ最適化ヒューリスティックスを強化するための深い強化学習手法を提案する。
特に、いくつかのスピングラス基底状態問題の結果を示し、非平面ネットワーク上のインスタンスは一般にNPハードであり、シミュレートされたアニーリング(SA)や並列テンパリング(PT)のようなモンテカルロをベースとしたいくつかの手法と比較する。
実際、これらの結果は強化学習がsaまたはptで得られるものよりも結果を改善すること、または少なくとも他の方法と比較して同等の品質の結果が得られる前にヒューリスティックスのランタイムを減少させることを証明している。
提案手法が「先行的」であるとの結論を得るために,(1)市販のGURLOBIソルバがテストベッドとして正確な基底状態のサンプルを収集し,(2)正確な基底状態の特定が困難である大規模事例のサンプルに対して,ヒューリスティックスとヘッド・ツー・ヘッドの比較を行う,という2つの基本戦略を追求した。
ここでは,これらの研究をより広い文脈に配置し,より小さなサンプルでは主張される優越性が最短であり,より大きいサンプルでは真の基底状態の妥当な近似とは無関係であることを示した。
例えば、この方法は、著者が述べたように、剛性指数を$\theta$ in $d>2$で決定する手段としては無関係となり、問題はNPハードであるだけでなく、ここで見られる$\approx 1\%$のそれぞれにおいて、ほぼ等しい基底状態エネルギーと系統誤差の2つの減算を必要とする。
この方法に関するこの大きな写真は、著者らが数十年にわたって使用してきたデータを用いて、スピンガラスのアンサンブルに関する単純な有限サイズの補正研究から生まれた。
関連論文リスト
- Rapid initial state preparation for the quantum simulation of strongly correlated molecules [4.639143844012453]
Toffoliの複雑性でユニタリ合成を実現する方法を示す。
フィルタリングにはサンプリングとバイナリ検索の2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-18T07:04:32Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Efficiently Escaping Saddle Points for Non-Convex Policy Optimization [40.0986936439803]
政策勾配(PG)は、拡張性と優れた性能のために強化学習に広く用いられている。
本稿では,ヘッセンベクトル積 (HVP) の形で二階情報を用いた分散還元二階法を提案し,サンプルの複雑さを$tildeO(epsilon-3)$とする近似二階定常点 (SOSP) に収束する。
論文 参考訳(メタデータ) (2023-11-15T12:36:45Z) - Langevin Thompson Sampling with Logarithmic Communication: Bandits and
Reinforcement Learning [34.4255062106615]
トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。
バッチ化された$textitLangevin Thompson Sampling$アルゴリズムを提案する。
アルゴリズムは計算効率が高く,MABでは$mathcalO(log T)$,RLでは$mathcalO(sqrtT)$と同じオーダー最適後悔保証を維持している。
論文 参考訳(メタデータ) (2023-06-15T01:16:29Z) - A Practical Upper Bound for the Worst-Case Attribution Deviations [21.341303776931532]
モデル属性は、複雑なモデルに対する解釈可能性において、ディープニューラルネットワーク(DNN)の重要な構成要素である。
近年の研究では、属性が異なる類似画像を生成する属性攻撃に弱いため、属性手法の安全性に注意が向けられている。
既存の研究はこれらの攻撃に対するDNNの堅牢性を実証的に改善している。
この研究において、制約付き最適化問題を初めて定式化し、ある領域内の雑音によってサンプルが摂動した後の属性の最大の相違を測る上限を導出する。
論文 参考訳(メタデータ) (2023-03-01T09:07:27Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。