論文の概要: What makes math problems hard for reinforcement learning: a case study
- arxiv url: http://arxiv.org/abs/2408.15332v1
- Date: Tue, 27 Aug 2024 18:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 18:02:17.304337
- Title: What makes math problems hard for reinforcement learning: a case study
- Title(参考訳): 強化学習に数学の問題はなぜ難しいのか--ケーススタディ
- Authors: Ali Shehper, Anibal M. Medina-Mardones, Bartłomiej Lewandowski, Angus Gruen, Piotr Kucharski, Sergei Gukov,
- Abstract要約: 群論からの長年の予想を用いて、不当に高い報酬を持つ稀な事例を見つけるという課題を探求する。
超スパース報酬問題で他の領域に関係のあるアルゴリズム改善を提案する。
- 参考スコア(独自算出の注目度): 2.993112997130942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using a long-standing conjecture from combinatorial group theory, we explore, from multiple angles, the challenges of finding rare instances carrying disproportionately high rewards. Based on lessons learned in the mathematical context defined by the Andrews-Curtis conjecture, we propose algorithmic improvements that can be relevant in other domains with ultra-sparse reward problems. Although our case study can be formulated as a game, its shortest winning sequences are potentially $10^6$ or $10^9$ times longer than those encountered in chess. In the process of our study, we demonstrate that one of the potential counterexamples due to Akbulut and Kirby, whose status escaped direct mathematical methods for 39 years, is stably AC-trivial.
- Abstract(参考訳): 組合せ群論からの長年の予想を用いて、複数の角度から、不均等に高い報酬を持つ稀な事例を見つけることの難しさを探求する。
アンドリュース=クールティス予想(英語版)によって定義された数学的文脈で学んだ教訓に基づき、超スパース報酬問題を持つ他の領域に関係のあるアルゴリズム的改善を提案する。
我々のケーススタディはゲームとして定式化できるが、最短の勝利シーケンスはチェスで遭遇した選手の10^6$または10^9$である可能性がある。
Akbulut と Kirby による潜在的な反例の1つは、39 年間直接数学的手法を免れたものであり、AC は安定的に自明であることを示す。
関連論文リスト
- On the Complexity of Computing G\"odel Numbers [0.0]
計算可能なすべての列の問題を研究し、Wehrauchの複雑性を分類する。
分類のベンチマークとして、閉かつコンパクトな選択問題とそれらの自然数へのジャンプを用いる。
これらの問題は、逆数学におけるカービー・パリ階層から知られているように、帰納法と有界性原理に対応している。
論文 参考訳(メタデータ) (2023-02-08T17:31:20Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - Formal Mathematics Statement Curriculum Learning [64.45821687940946]
同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。
また, 難易度が十分に異なる形式文の集合に適用した場合, 専門家の反復により, ますます困難な問題に対するカリキュラムの発見と解決が可能であることも観察した。
論文 参考訳(メタデータ) (2022-02-03T00:17:00Z) - A singular Riemannian geometry approach to Deep Neural Networks I.
Theoretical foundations [77.86290991564829]
ディープニューラルネットワークは、音声認識、機械翻訳、画像解析など、いくつかの科学領域で複雑な問題を解決するために広く使われている。
我々は、リーマン計量を備えた列の最後の多様体で、多様体間の写像の特定の列を研究する。
このようなシーケンスのマップの理論的性質について検討し、最終的に実践的な関心を持つニューラルネットワークの実装間のマップのケースに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-17T11:43:30Z) - Constructions in combinatorics via neural networks [0.0]
強化学習アルゴリズムを用いることで、グラフ理論におけるいくつかの開予想に対する明示的な構成や反例を見つけることができる。
予想の中には、パターン回避行列の永続性を最大化するブルールディとカオの問題や、グラフの隣接性と距離固有値に関連するいくつかの問題がある。
論文 参考訳(メタデータ) (2021-04-29T17:32:56Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Quiver Mutations, Seiberg Duality and Machine Learning [3.717544246477156]
我々は、クラスター代数の文脈における数学にも関心を持つ、クイバーゲージ理論のケースに焦点を当てる。
機械学習の性能は,クラス数や突然変異型など,いくつかの変数に依存する。
考慮されたすべての質問において、高い精度と信頼性が達成できる。
論文 参考訳(メタデータ) (2020-06-18T18:01:19Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - A refinement of Reznick's Positivstellensatz with applications to
quantum information theory [72.8349503901712]
ヒルベルトの17番目の問題において、アルティンはいくつかの変数の任意の正定値が2つの平方和の商として書けることを示した。
レズニックはアルティンの結果の分母は常に変数の平方ノルムの$N$-次パワーとして選択できることを示した。
論文 参考訳(メタデータ) (2019-09-04T11:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。