論文の概要: What makes math problems hard for reinforcement learning: a case study
- arxiv url: http://arxiv.org/abs/2408.15332v2
- Date: Tue, 11 Feb 2025 18:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:04:08.623719
- Title: What makes math problems hard for reinforcement learning: a case study
- Title(参考訳): 強化学習に数学の問題はなぜ難しいのか--ケーススタディ
- Authors: Ali Shehper, Anibal M. Medina-Mardones, Lucas Fagan, Bartłomiej Lewandowski, Angus Gruen, Yang Qiu, Piotr Kucharski, Zhenghan Wang, Sergei Gukov,
- Abstract要約: 不当に高い報酬をもたらす稀な事例を見つけることの課題について検討する。
本稿では,探索問題に対するアルゴリズム拡張とトポロジ的硬度尺度を提案する。
- 参考スコア(独自算出の注目度): 3.9983804890867076
- License:
- Abstract: Using a long-standing conjecture from combinatorial group theory, we explore, from multiple perspectives, the challenges of finding rare instances carrying disproportionately high rewards. Based on lessons learned in the context defined by the Andrews-Curtis conjecture, we propose algorithmic enhancements and a topological hardness measure with implications for a broad class of search problems. As part of our study, we also address several open mathematical questions. Notably, we demonstrate the length reducibility of all but two presentations in the Akbulut-Kirby series (1981), and resolve various potential counterexamples in the Miller-Schupp series (1991), including three infinite subfamilies.
- Abstract(参考訳): 組合せ群論からの長年の予想を用いて、複数の観点から、不均等に高い報酬を持つ稀な事例を見つけるという課題を探求する。
アンドリュース=クールティス予想(Andrews-Curtis conjecture)によって定義された文脈で学んだ教訓に基づき,幅広い探索問題に影響を及ぼすアルゴリズム的拡張と位相的硬度尺度を提案する。
私たちの研究の一環として、いくつかのオープンな数学的問題にも対処しています。
特に、Akbulut-Kirby 級数 (1981) における2つのプレゼンテーションを除くすべての長さの再現性を示し、Miller-Schupp 級数 (1991) における様々な潜在的な反例を3つの無限部分ファミリを含む解決する。
関連論文リスト
- On the Complexity of Computing G\"odel Numbers [0.0]
計算可能なすべての列の問題を研究し、Wehrauchの複雑性を分類する。
分類のベンチマークとして、閉かつコンパクトな選択問題とそれらの自然数へのジャンプを用いる。
これらの問題は、逆数学におけるカービー・パリ階層から知られているように、帰納法と有界性原理に対応している。
論文 参考訳(メタデータ) (2023-02-08T17:31:20Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - Formal Mathematics Statement Curriculum Learning [64.45821687940946]
同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。
また, 難易度が十分に異なる形式文の集合に適用した場合, 専門家の反復により, ますます困難な問題に対するカリキュラムの発見と解決が可能であることも観察した。
論文 参考訳(メタデータ) (2022-02-03T00:17:00Z) - A singular Riemannian geometry approach to Deep Neural Networks I.
Theoretical foundations [77.86290991564829]
ディープニューラルネットワークは、音声認識、機械翻訳、画像解析など、いくつかの科学領域で複雑な問題を解決するために広く使われている。
我々は、リーマン計量を備えた列の最後の多様体で、多様体間の写像の特定の列を研究する。
このようなシーケンスのマップの理論的性質について検討し、最終的に実践的な関心を持つニューラルネットワークの実装間のマップのケースに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-17T11:43:30Z) - Constructions in combinatorics via neural networks [0.0]
強化学習アルゴリズムを用いることで、グラフ理論におけるいくつかの開予想に対する明示的な構成や反例を見つけることができる。
予想の中には、パターン回避行列の永続性を最大化するブルールディとカオの問題や、グラフの隣接性と距離固有値に関連するいくつかの問題がある。
論文 参考訳(メタデータ) (2021-04-29T17:32:56Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Quiver Mutations, Seiberg Duality and Machine Learning [3.717544246477156]
我々は、クラスター代数の文脈における数学にも関心を持つ、クイバーゲージ理論のケースに焦点を当てる。
機械学習の性能は,クラス数や突然変異型など,いくつかの変数に依存する。
考慮されたすべての質問において、高い精度と信頼性が達成できる。
論文 参考訳(メタデータ) (2020-06-18T18:01:19Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - A refinement of Reznick's Positivstellensatz with applications to
quantum information theory [72.8349503901712]
ヒルベルトの17番目の問題において、アルティンはいくつかの変数の任意の正定値が2つの平方和の商として書けることを示した。
レズニックはアルティンの結果の分母は常に変数の平方ノルムの$N$-次パワーとして選択できることを示した。
論文 参考訳(メタデータ) (2019-09-04T11:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。