論文の概要: What makes math problems hard for reinforcement learning: a case study
- arxiv url: http://arxiv.org/abs/2408.15332v1
- Date: Tue, 27 Aug 2024 18:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 18:02:17.304337
- Title: What makes math problems hard for reinforcement learning: a case study
- Title(参考訳): 強化学習に数学の問題はなぜ難しいのか--ケーススタディ
- Authors: Ali Shehper, Anibal M. Medina-Mardones, Bartłomiej Lewandowski, Angus Gruen, Piotr Kucharski, Sergei Gukov,
- Abstract要約: 群論からの長年の予想を用いて、不当に高い報酬を持つ稀な事例を見つけるという課題を探求する。
超スパース報酬問題で他の領域に関係のあるアルゴリズム改善を提案する。
- 参考スコア(独自算出の注目度): 2.993112997130942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using a long-standing conjecture from combinatorial group theory, we explore, from multiple angles, the challenges of finding rare instances carrying disproportionately high rewards. Based on lessons learned in the mathematical context defined by the Andrews-Curtis conjecture, we propose algorithmic improvements that can be relevant in other domains with ultra-sparse reward problems. Although our case study can be formulated as a game, its shortest winning sequences are potentially $10^6$ or $10^9$ times longer than those encountered in chess. In the process of our study, we demonstrate that one of the potential counterexamples due to Akbulut and Kirby, whose status escaped direct mathematical methods for 39 years, is stably AC-trivial.
- Abstract(参考訳): 組合せ群論からの長年の予想を用いて、複数の角度から、不均等に高い報酬を持つ稀な事例を見つけることの難しさを探求する。
アンドリュース=クールティス予想(英語版)によって定義された数学的文脈で学んだ教訓に基づき、超スパース報酬問題を持つ他の領域に関係のあるアルゴリズム的改善を提案する。
我々のケーススタディはゲームとして定式化できるが、最短の勝利シーケンスはチェスで遭遇した選手の10^6$または10^9$である可能性がある。
Akbulut と Kirby による潜在的な反例の1つは、39 年間直接数学的手法を免れたものであり、AC は安定的に自明であることを示す。
関連論文リスト
- Learning Formal Mathematics From Intrinsic Motivation [34.986025832497255]
ミニモ(Minimo)は、自分自身に問題を起こし、それを解決することを学ぶエージェント(理論実証)である。
制約付き復号法と型指向合成法を組み合わせて、言語モデルから有効な予想をサンプリングする。
我々のエージェントは、ハードだが証明可能な予想を生成することを目標としています。
論文 参考訳(メタデータ) (2024-06-30T13:34:54Z) - Machine learning and information theory concepts towards an AI
Mathematician [77.63761356203105]
人工知能の現在の最先端技術は、特に言語習得の点で印象的だが、数学的推論の点ではあまり重要ではない。
このエッセイは、現在のディープラーニングが主にシステム1の能力で成功するという考えに基づいている。
興味深い数学的ステートメントを構成するものについて質問するために、情報理論的な姿勢を取る。
論文 参考訳(メタデータ) (2024-03-07T15:12:06Z) - Algorithm-assisted discovery of an intrinsic order among mathematical
constants [3.7689882895317037]
基礎数学的定数に対する連続的な分数式を前例のない数で発見するコンピュータアルゴリズムを開発した。
多数の公式は、保守行列場と呼ばれる新しい数学的構造を明らかにする。
そのような行列場は数千の既存の公式を統一し、無限に多くの新しい公式を生成し、異なる数学的定数間の予期せぬ関係をもたらす。
論文 参考訳(メタデータ) (2023-08-22T23:27:47Z) - TheoremQA: A Theorem-driven Question Answering dataset [100.39878559382694]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。
TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文 参考訳(メタデータ) (2023-05-21T17:51:35Z) - Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文 参考訳(メタデータ) (2023-05-15T05:37:32Z) - On the Complexity of Computing G\"odel Numbers [0.0]
計算可能なすべての列の問題を研究し、Wehrauchの複雑性を分類する。
分類のベンチマークとして、閉かつコンパクトな選択問題とそれらの自然数へのジャンプを用いる。
これらの問題は、逆数学におけるカービー・パリ階層から知られているように、帰納法と有界性原理に対応している。
論文 参考訳(メタデータ) (2023-02-08T17:31:20Z) - Global Nash Equilibrium in Non-convex Multi-player Game: Theory and
Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。
また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文 参考訳(メタデータ) (2023-01-19T11:36:50Z) - Automated Search for Conjectures on Mathematical Constants using
Analysis of Integer Sequences [0.0]
基本的な数学的定数を含む公式は、科学と数学の様々な分野に大きな影響を与えた。
ラマヌジャン機械計画のような数学定数の公式の発見を自動化しようとする最近の試みは、徹底的な探索に依存していた。
ここでは、整数列の解析を通して、数学的定数の予想を探索する根本的に異なる方法を提案する。
論文 参考訳(メタデータ) (2022-12-13T18:01:21Z) - Connes implies Tsirelson: a simple proof [91.3755431537592]
コンヌ埋め込み問題は同期的ツィレルソン予想を意味することを示す。
また、コンネスの代数 $mathcalRomega$ の異なる構成もコンネス埋め込み問題に現れる。
論文 参考訳(メタデータ) (2022-09-16T13:59:42Z) - Online Learning with Simple Predictors and a Combinatorial
Characterization of Minimax in 0/1 Games [38.15628332832227]
我々は、常に「単純な」予測器を用いて、ほぼ最適なミス/リグレット境界を達成する方法を示す。
この証明の技術的要素は、二元ゼロサムゲームに対する有名なミニマックス定理の一般化である。
論文 参考訳(メタデータ) (2021-02-02T18:02:01Z) - Counterexamples to the Low-Degree Conjecture [80.3668228845075]
ホプキンスの予想は、ある高次元仮説テスト問題に対して、非時間アルゴリズムはいわゆる「単純な統計」よりも優れていると仮定する。
この予想は、統計対計算のトレードオフを理解しようとする最近の研究のラインを囲む信念を定式化する。
論文 参考訳(メタデータ) (2020-04-17T21:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。