論文の概要: Formal Mathematics Statement Curriculum Learning
- arxiv url: http://arxiv.org/abs/2202.01344v1
- Date: Thu, 3 Feb 2022 00:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 13:30:40.157786
- Title: Formal Mathematics Statement Curriculum Learning
- Title(参考訳): 形式数学文のカリキュラム学習
- Authors: Stanislas Polu, Jesse Michael Han, Kunhao Zheng, Mantas Baksys, Igor
Babuschkin, Ilya Sutskever
- Abstract要約: 同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。
また, 難易度が十分に異なる形式文の集合に適用した場合, 専門家の反復により, ますます困難な問題に対するカリキュラムの発見と解決が可能であることも観察した。
- 参考スコア(独自算出の注目度): 64.45821687940946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the use of expert iteration in the context of language modeling
applied to formal mathematics. We show that at same compute budget, expert
iteration, by which we mean proof search interleaved with learning,
dramatically outperforms proof search only. We also observe that when applied
to a collection of formal statements of sufficiently varied difficulty, expert
iteration is capable of finding and solving a curriculum of increasingly
difficult problems, without the need for associated ground-truth proofs.
Finally, by applying this expert iteration to a manually curated set of problem
statements, we achieve state-of-the-art on the miniF2F benchmark, automatically
solving multiple challenging problems drawn from high school olympiads.
- Abstract(参考訳): 形式数学に適用される言語モデリングの文脈において,専門家によるイテレーションの利用について検討する。
同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。
また, 十分な難易度を持つ形式文の収集に適用した場合, 専門家の反復は, 関連する基礎的真理証明を必要とせず, ますます困難な問題のカリキュラムを見つけ, 解決することができる。
最後に、このエキスパートイテレーションを手作業でキュレートされた問題ステートメントに適用することにより、miniF2Fベンチマークの最先端を達成し、高校のオリンピック選手が引き起こした複数の課題を自動的に解決する。
関連論文リスト
- MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。
mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文 参考訳(メタデータ) (2025-02-14T14:44:22Z) - MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
MathGAPは、それらの算術的証明構造に関する仕様に従って、問題文と連鎖推論トレースを生成する。
MathGAP を用いて, LLM はより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - Artifical intelligence and inherent mathematical difficulty [0.0]
まず、計算可能性と複雑性理論による制限的な結果が証明発見が本質的に難しい問題であることを示す従来の議論の更新版を提示する。
次に、人工知能にインスパイアされた最近のいくつかの応用が、数学的な証明の性質に関する新しい疑問を実際に提起する方法について説明する。
論文 参考訳(メタデータ) (2024-08-01T20:08:31Z) - One Prompt is not Enough: Automated Construction of a Mixture-of-Expert Prompts [110.94724216491753]
大規模言語モデル(LLM)は、言語命令やコンテキスト内デモによって、強力な一般化能力を示す。
命令設計を自動化するために様々な手法が検討されてきたが、探索されたプロンプトを1つの命令に制限した。
我々はMixture-of-Expertパラダイムを採用し、問題空間を一連のサブリージョンに分割する。
地域ごとに専門的な専門家を構築するための2段階のプロセスが開発されている。
専門家1人当たりの命令の地域ベースの共同探索は、それに割り当てられたデモを補完し、相乗効果をもたらす。
論文 参考訳(メタデータ) (2024-06-28T23:05:08Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。
VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文 参考訳(メタデータ) (2024-06-07T16:24:12Z) - Context Matters: Data-Efficient Augmentation of Large Language Models
for Scientific Applications [15.893290942177112]
GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。
一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。
本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
論文 参考訳(メタデータ) (2023-12-12T08:43:20Z) - Fusing Models with Complementary Expertise [42.099743709292866]
データ分布の相補的な知識で専門家モデルの出力を融合させるFoE(Fusion of Experts)問題を考える。
我々の方法は差別的タスクと生成的タスクの両方に当てはまる。
テスト時に専門家によるモデル評価の回数を減らすことが望まれる「フルーガル」設定にメソッドを拡張します。
論文 参考訳(メタデータ) (2023-10-02T18:31:35Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。