論文の概要: Solving a Research Problem in Mathematical Statistics with AI Assistance
- arxiv url: http://arxiv.org/abs/2511.18828v1
- Date: Mon, 24 Nov 2025 07:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.067285
- Title: Solving a Research Problem in Mathematical Statistics with AI Assistance
- Title(参考訳): 数学統計学におけるAI支援による研究課題の解決
- Authors: Edgar Dobriban,
- Abstract要約: 我々は、GPT-5が、ロバストな数学的統計学において、未解決の研究問題を解くのにいかに役立ったかを示す。
我々の問題は、観測がワッサーシュタインに結合した汚染によって妨害される、ロバストな密度推定に関するものである。
GPT-5は、私たちが考えていない計算や、我々に馴染みのないテクニックの提案など、その過程で重要な助けを提供しました。
- 参考スコア(独自算出の注目度): 19.35055637720468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last few months, AI models including large language models have improved greatly. There are now several documented examples where they have helped professional mathematical scientists prove new results, sometimes even helping resolve known open problems. In this short note, we add another example to the list, by documenting how we were able to solve a previously unsolved research problem in robust mathematical statistics with crucial help from GPT-5. Our problem concerns robust density estimation, where the observations are perturbed by Wasserstein-bounded contaminations.In a previous preprint (Chao and Dobriban, 2023, arxiv:2308.01853v2), we have obtained upper and lower bounds on the minimax optimal estimation error; which were, however, not sharp. Starting in October 2025, making significant use of GPT-5 Pro, we were able to derive the minimax optimal error rate (reported in version 3 of the above arxiv preprint). GPT-5 provided crucial help along the way, including by suggesting calculations that we did not think of, and techniques that were not familiar to us, such as the dynamic Benamou-Brenier formulation, for key steps in the analysis. Working with GPT-5 took a few weeks of effort, and we estimate that it could have taken several months to get the same results otherwise. At the same time, there are still areas where working with GPT-5 was challenging: it sometimes provided incorrect references, and glossed over details that sometimes took days of work to fill in. We outline our workflow and steps taken to mitigate issues. Overall, our work can serve as additional documentation for a new age of human-AI collaborative work in mathematical science.
- Abstract(参考訳): ここ数ヶ月で、大きな言語モデルを含むAIモデルは大幅に改善された。
現在、プロの数学科学者が新しい結果を証明し、時には既知の未解決問題の解決にも役立てた、文書化された例がいくつかある。
本稿では、GPT-5から重要な助けを借りて、頑健な数学的統計学において、未解決の研究問題をいかに解決できるかを文書化することによって、リストに別の例を付け加える。
我々の問題は、ワッサーシュタイン境界汚染による観測が摂動するロバスト密度の推定であり、前回のプレプリント(Chao and Dobriban, 2023, arxiv:2308.01853v2)では、最小推定誤差の上限と下限が得られた。
2025年10月から、GPT-5 Proを大いに活用し、最小誤差率を導出することができた(上述のarxivプリプリントのバージョン3に記載されている)。
GPT-5は、私たちが考えなかった計算や、解析の重要なステップとして、動的ベナモ・ブレニエの定式化のような、我々に馴染みのない手法を提案することを含む、その過程で重要な助けを提供した。
GPT-5の作業には数週間の労力が必要で、同じ結果を得るのに数ヶ月を要したと見積もっています。
同時に、GPT-5で作業するのが難しい部分もまだある。誤った参照を提供する場合もあれば、補うのに何日もかかった詳細を掘り下げることもあった。
問題を軽減するためのワークフローと手順を概説します。
全体として、我々の研究は、数学科学における人間-AI共同研究の新しい時代のための追加のドキュメントとして役立てることができる。
関連論文リスト
- Early science acceleration experiments with GPT-5 [58.27301147653905]
本研究は, GPT-5が現在進行中の研究において, 新たな具体的なステップを生み出した事例をまとめたものである。
これらの例では、AIがどのように仕事を加速し、どこで不足したのかを強調している。
我々は,人間作家と GPT-5 とのインタラクションを,AI との実りあるコラボレーションの例として記述する。
論文 参考訳(メタデータ) (2025-11-20T06:04:23Z) - Gödel Test: Can Large Language Models Solve Easy Conjectures? [40.906606632144694]
我々はG"odel Test"を提案し、モデルが非常に単純で未解決な予想に対して正しい証明を生成できるかどうかを評価する。
アルゴリズム最適化における 5 つの予想に対する GPT-5 の性能について検討する。
GPT-5は、最終的にG"odel Test"を通過させるフロンティアモデルに向けた初期のステップを表す可能性がある。
論文 参考訳(メタデータ) (2025-09-22T20:11:40Z) - Winning Gold at IMO 2025 with a Model-Agnostic Verification-and-Refinement Pipeline [10.177917426690703]
大規模な言語モデルは、しばしばオリンピアードレベルの問題と競合する。
我々は,モデルに依存しない検証・修正パイプラインを構築した。
IMO 2025において、その効果を実証した。
論文 参考訳(メタデータ) (2025-07-21T17:59:49Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。
既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文 参考訳(メタデータ) (2024-12-20T17:19:24Z) - HARP: A challenging human-annotated math reasoning benchmark [7.691786865279827]
本稿では,米国数学コンペティション(A(J)HSME,AMC,AIME,USA(J)MO)の5,409個の問題からなるHARP(Human Annotated Reasoning Problems)を紹介する。
そのうち4,780の回答は自動的にチェックできる(SymPyなどのライブラリで)。
これらの問題には6つの難易度があり、フロンティアモデルは197の最も難しいブラケット(平均41.1%のo1-mini、9.6%のGemini 1.5 Pro)で比較的性能が劣っている。
私たちのデータセットには、複数の選択肢(4,110問題)と、平均2つの人書き文字も備えています。
論文 参考訳(メタデータ) (2024-12-11T23:31:06Z) - How does GPT-2 compute greater-than?: Interpreting mathematical
abilities in a pre-trained language model [52.92472140375308]
我々は、GPT-2小の数学的能力を説明するために、機械的解釈可能性技術を用いている。
我々は, GPT-2 small の最終多層パーセプトロンは, 開始年よりも終末年の確率を増大させることを示した。
以上の結果から,GPT-2は複雑だが汎用的な機構で計算可能であることが示唆された。
論文 参考訳(メタデータ) (2023-04-30T21:44:21Z) - HaT5: Hate Language Identification using Text-to-Text Transfer
Transformer [1.2532400738980594]
比較的多様な2つのデータセットから5つのタスクにまたがる最先端技術(SoTA)アーキテクチャT5の性能について検討する。
性能向上のために,自己回帰モデルを用いてトレーニングデータを増強する。
サンプルの小さなセットを使用することで、データアノテーションが貧弱であることの難しさを明らかにします。
論文 参考訳(メタデータ) (2022-02-11T15:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。