Fugu-MT 論文翻訳(概要): Formal Mathematics Statement Curriculum Learning

論文の概要: Formal Mathematics Statement Curriculum Learning

arxiv url: http://arxiv.org/abs/2202.01344v1
Date: Thu, 3 Feb 2022 00:17:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-04 13:30:40.157786
Title: Formal Mathematics Statement Curriculum Learning
Title（参考訳）: 形式数学文のカリキュラム学習
Authors: Stanislas Polu, Jesse Michael Han, Kunhao Zheng, Mantas Baksys, Igor Babuschkin, Ilya Sutskever
Abstract要約: 同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。また, 難易度が十分に異なる形式文の集合に適用した場合, 専門家の反復により, ますます困難な問題に対するカリキュラムの発見と解決が可能であることも観察した。
参考スコア（独自算出の注目度）: 64.45821687940946
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We explore the use of expert iteration in the context of language modeling applied to formal mathematics. We show that at same compute budget, expert iteration, by which we mean proof search interleaved with learning, dramatically outperforms proof search only. We also observe that when applied to a collection of formal statements of sufficiently varied difficulty, expert iteration is capable of finding and solving a curriculum of increasingly difficult problems, without the need for associated ground-truth proofs. Finally, by applying this expert iteration to a manually curated set of problem statements, we achieve state-of-the-art on the miniF2F benchmark, automatically solving multiple challenging problems drawn from high school olympiads.
Abstract（参考訳）: 形式数学に適用される言語モデリングの文脈において,専門家によるイテレーションの利用について検討する。同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。また, 十分な難易度を持つ形式文の収集に適用した場合, 専門家の反復は, 関連する基礎的真理証明を必要とせず, ますます困難な問題のカリキュラムを見つけ, 解決することができる。最後に、このエキスパートイテレーションを手作業でキュレートされた問題ステートメントに適用することにより、miniF2Fベンチマークの最先端を達成し、高校のオリンピック選手が引き起こした複数の課題を自動的に解決する。

関連論文リスト

HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class [27.93059568425132]
HARDMath2は、大学院応用数学クラスの中核トピックをカバーする211のオリジナル問題のデータセットである。このデータセットはハーバード大学のコア大学院数学コースの学生とインストラクターによって設計され、検証された。このデータセットは、学生がクラスシラバスと整合した難しい問題を書き、洗練するよう促す、新しい協調環境を通じて構築されます。
論文参考訳（メタデータ） (2025-05-17T00:52:49Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。 mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文参考訳（メタデータ） (2025-02-14T14:44:22Z)
MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。本研究では、任意に複雑な算術証明問題に対する LLM の評価フレームワーク、MathGAP を提案する。
論文参考訳（メタデータ） (2024-10-17T12:48:14Z)
Artifical intelligence and inherent mathematical difficulty [0.0]
まず、計算可能性と複雑性理論による制限的な結果が証明発見が本質的に難しい問題であることを示す従来の議論の更新版を提示する。次に、人工知能にインスパイアされた最近のいくつかの応用が、数学的な証明の性質に関する新しい疑問を実際に提起する方法について説明する。
論文参考訳（メタデータ） (2024-08-01T20:08:31Z)
One Prompt is not Enough: Automated Construction of a Mixture-of-Expert Prompts [110.94724216491753]
大規模言語モデル(LLM)は、言語命令やコンテキスト内デモによって、強力な一般化能力を示す。命令設計を自動化するために様々な手法が検討されてきたが、探索されたプロンプトを1つの命令に制限した。我々はMixture-of-Expertパラダイムを採用し、問題空間を一連のサブリージョンに分割する。地域ごとに専門的な専門家を構築するための2段階のプロセスが開発されている。専門家1人当たりの命令の地域ベースの共同探索は、それに割り当てられたデモを補完し、相乗効果をもたらす。
論文参考訳（メタデータ） (2024-06-28T23:05:08Z)
MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文参考訳（メタデータ） (2024-06-26T13:02:35Z)
Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文参考訳（メタデータ） (2024-06-19T23:30:01Z)
VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。 VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文参考訳（メタデータ） (2024-06-07T16:24:12Z)
Context Matters: Data-Efficient Augmentation of Large Language Models for Scientific Applications [15.893290942177112]
GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
論文参考訳（メタデータ） (2023-12-12T08:43:20Z)
Fusing Models with Complementary Expertise [42.099743709292866]
データ分布の相補的な知識で専門家モデルの出力を融合させるFoE(Fusion of Experts)問題を考える。我々の方法は差別的タスクと生成的タスクの両方に当てはまる。テスト時に専門家によるモデル評価の回数を減らすことが望まれる「フルーガル」設定にメソッドを拡張します。
論文参考訳（メタデータ） (2023-10-02T18:31:35Z)
A Hybrid System for Systematic Generalization in Simple Arithmetic Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文参考訳（メタデータ） (2023-06-29T18:35:41Z)
Towards a Holistic Understanding of Mathematical Questions with Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文参考訳（メタデータ） (2023-01-18T14:23:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。