Fugu-MT 論文翻訳(概要): What makes math problems hard for reinforcement learning: a case study

論文の概要: What makes math problems hard for reinforcement learning: a case study

arxiv url: http://arxiv.org/abs/2408.15332v1
Date: Tue, 27 Aug 2024 18:00:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 18:02:17.304337
Title: What makes math problems hard for reinforcement learning: a case study
Title（参考訳）: 強化学習に数学の問題はなぜ難しいのか--ケーススタディ
Authors: Ali Shehper, Anibal M. Medina-Mardones, Bartłomiej Lewandowski, Angus Gruen, Piotr Kucharski, Sergei Gukov,
Abstract要約: 群論からの長年の予想を用いて、不当に高い報酬を持つ稀な事例を見つけるという課題を探求する。超スパース報酬問題で他の領域に関係のあるアルゴリズム改善を提案する。
参考スコア（独自算出の注目度）: 2.993112997130942
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Using a long-standing conjecture from combinatorial group theory, we explore, from multiple angles, the challenges of finding rare instances carrying disproportionately high rewards. Based on lessons learned in the mathematical context defined by the Andrews-Curtis conjecture, we propose algorithmic improvements that can be relevant in other domains with ultra-sparse reward problems. Although our case study can be formulated as a game, its shortest winning sequences are potentially $10^6$ or $10^9$ times longer than those encountered in chess. In the process of our study, we demonstrate that one of the potential counterexamples due to Akbulut and Kirby, whose status escaped direct mathematical methods for 39 years, is stably AC-trivial.
Abstract（参考訳）: 組合せ群論からの長年の予想を用いて、複数の角度から、不均等に高い報酬を持つ稀な事例を見つけることの難しさを探求する。アンドリュース=クールティス予想(英語版)によって定義された数学的文脈で学んだ教訓に基づき、超スパース報酬問題を持つ他の領域に関係のあるアルゴリズム的改善を提案する。我々のケーススタディはゲームとして定式化できるが、最短の勝利シーケンスはチェスで遭遇した選手の10^6$または10^9$である可能性がある。 Akbulut と Kirby による潜在的な反例の1つは、39 年間直接数学的手法を免れたものであり、AC は安定的に自明であることを示す。

関連論文リスト

OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文参考訳（メタデータ） (2025-06-23T17:51:40Z)
Neuro-Symbolic Learning for Galois Groups: Unveiling Probabilistic Trends in Polynomials [0.0]
本稿では,ガロア群を既約群に分類するための神経象徴的アプローチを提案する。ニューラルネットワークと記号的推論を組み合わせることで、精度と解釈可能性において純粋に数値的な手法より優れているモデルを開発する。この研究は、予想や高次分類を含む計算代数学における将来の研究の道を開くものである。
論文参考訳（メタデータ） (2025-02-28T08:42:57Z)
Learning Formal Mathematics From Intrinsic Motivation [34.986025832497255]
ミニモ(Minimo)は、自分自身に問題を起こし、それを解決することを学ぶエージェント(理論実証)である。制約付き復号法と型指向合成法を組み合わせて、言語モデルから有効な予想をサンプリングする。我々のエージェントは、ハードだが証明可能な予想を生成することを目標としています。
論文参考訳（メタデータ） (2024-06-30T13:34:54Z)
Machine learning and information theory concepts towards an AI Mathematician [77.63761356203105]
人工知能の現在の最先端技術は、特に言語習得の点で印象的だが、数学的推論の点ではあまり重要ではない。このエッセイは、現在のディープラーニングが主にシステム1の能力で成功するという考えに基づいている。興味深い数学的ステートメントを構成するものについて質問するために、情報理論的な姿勢を取る。
論文参考訳（メタデータ） (2024-03-07T15:12:06Z)
Algorithm-assisted discovery of an intrinsic order among mathematical constants [3.7689882895317037]
基礎数学的定数に対する連続的な分数式を前例のない数で発見するコンピュータアルゴリズムを開発した。多数の公式は、保守行列場と呼ばれる新しい数学的構造を明らかにする。そのような行列場は数千の既存の公式を統一し、無限に多くの新しい公式を生成し、異なる数学的定数間の予期せぬ関係をもたらす。
論文参考訳（メタデータ） (2023-08-22T23:27:47Z)
TheoremQA: A Theorem-driven Question Answering dataset [100.39878559382694]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文参考訳（メタデータ） (2023-05-21T17:51:35Z)
Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文参考訳（メタデータ） (2023-05-15T05:37:32Z)
On the Complexity of Computing G\"odel Numbers [0.0]
計算可能なすべての列の問題を研究し、Wehrauchの複雑性を分類する。分類のベンチマークとして、閉かつコンパクトな選択問題とそれらの自然数へのジャンプを用いる。これらの問題は、逆数学におけるカービー・パリ階層から知られているように、帰納法と有界性原理に対応している。
論文参考訳（メタデータ） (2023-02-08T17:31:20Z)
Global Nash Equilibrium in Non-convex Multi-player Game: Theory and Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文参考訳（メタデータ） (2023-01-19T11:36:50Z)
Towards a Holistic Understanding of Mathematical Questions with Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文参考訳（メタデータ） (2023-01-18T14:23:29Z)
Automated Search for Conjectures on Mathematical Constants using Analysis of Integer Sequences [0.0]
基本的な数学的定数を含む公式は、科学と数学の様々な分野に大きな影響を与えた。ラマヌジャン機械計画のような数学定数の公式の発見を自動化しようとする最近の試みは、徹底的な探索に依存していた。ここでは、整数列の解析を通して、数学的定数の予想を探索する根本的に異なる方法を提案する。
論文参考訳（メタデータ） (2022-12-13T18:01:21Z)
Connes implies Tsirelson: a simple proof [91.3755431537592]
コンヌ埋め込み問題は同期的ツィレルソン予想を意味することを示す。また、コンネスの代数 $mathcalRomega$ の異なる構成もコンネス埋め込み問題に現れる。
論文参考訳（メタデータ） (2022-09-16T13:59:42Z)
Formal Mathematics Statement Curriculum Learning [64.45821687940946]
同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。また, 難易度が十分に異なる形式文の集合に適用した場合, 専門家の反復により, ますます困難な問題に対するカリキュラムの発見と解決が可能であることも観察した。
論文参考訳（メタデータ） (2022-02-03T00:17:00Z)
A singular Riemannian geometry approach to Deep Neural Networks I. Theoretical foundations [77.86290991564829]
ディープニューラルネットワークは、音声認識、機械翻訳、画像解析など、いくつかの科学領域で複雑な問題を解決するために広く使われている。我々は、リーマン計量を備えた列の最後の多様体で、多様体間の写像の特定の列を研究する。このようなシーケンスのマップの理論的性質について検討し、最終的に実践的な関心を持つニューラルネットワークの実装間のマップのケースに焦点を当てる。
論文参考訳（メタデータ） (2021-12-17T11:43:30Z)
Constructions in combinatorics via neural networks [0.0]
強化学習アルゴリズムを用いることで、グラフ理論におけるいくつかの開予想に対する明示的な構成や反例を見つけることができる。予想の中には、パターン回避行列の永続性を最大化するブルールディとカオの問題や、グラフの隣接性と距離固有値に関連するいくつかの問題がある。
論文参考訳（メタデータ） (2021-04-29T17:32:56Z)
Online Learning with Simple Predictors and a Combinatorial Characterization of Minimax in 0/1 Games [38.15628332832227]
我々は、常に「単純な」予測器を用いて、ほぼ最適なミス/リグレット境界を達成する方法を示す。この証明の技術的要素は、二元ゼロサムゲームに対する有名なミニマックス定理の一般化である。
論文参考訳（メタデータ） (2021-02-02T18:02:01Z)
Instance-Dependent Complexity of Contextual Bandits and Reinforcement Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文参考訳（メタデータ） (2020-10-07T01:33:06Z)
Quiver Mutations, Seiberg Duality and Machine Learning [3.717544246477156]
我々は、クラスター代数の文脈における数学にも関心を持つ、クイバーゲージ理論のケースに焦点を当てる。機械学習の性能は,クラス数や突然変異型など,いくつかの変数に依存する。考慮されたすべての質問において、高い精度と信頼性が達成できる。
論文参考訳（メタデータ） (2020-06-18T18:01:19Z)
Counterexamples to the Low-Degree Conjecture [80.3668228845075]
ホプキンスの予想は、ある高次元仮説テスト問題に対して、非時間アルゴリズムはいわゆる「単純な統計」よりも優れていると仮定する。この予想は、統計対計算のトレードオフを理解しようとする最近の研究のラインを囲む信念を定式化する。
論文参考訳（メタデータ） (2020-04-17T21:08:11Z)
Provably Efficient Exploration for Reinforcement Learning Using Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-15T19:23:59Z)
A refinement of Reznick's Positivstellensatz with applications to quantum information theory [72.8349503901712]
ヒルベルトの17番目の問題において、アルティンはいくつかの変数の任意の正定値が2つの平方和の商として書けることを示した。レズニックはアルティンの結果の分母は常に変数の平方ノルムの$N$-次パワーとして選択できることを示した。
論文参考訳（メタデータ） (2019-09-04T11:46:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。