論文の概要: Can LLM generate interesting mathematical research problems?
- arxiv url: http://arxiv.org/abs/2603.18813v1
- Date: Thu, 19 Mar 2026 12:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.1335
- Title: Can LLM generate interesting mathematical research problems?
- Title(参考訳): LLMは興味深い数学的研究問題を生成できるのか?
- Authors: Xiaoyang Chen, Xiang Jiang,
- Abstract要約: 我々は未知の問題を発生させるエージェントを開発し、微分幾何学における665の研究問題を発生させる。
人間の検証により、これらの数学的問題の多くは専門家には未知であり、独自の研究価値を持っていることが判明した。
- 参考スコア(独自算出の注目度): 5.836029794016965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is the second one in a series of work on the mathematical creativity of LLM. In the first paper, the authors proposed three criteria for evaluating the mathematical creativity of LLM and constructed a benchmark dataset to measure it. This paper further explores the mathematical creativity of LLM, with a focus on investigating whether LLM can generate valuable and cutting-edge mathematical research problems. We develop an agent to generate unknown problems and produced 665 research problems in differential geometry. Through human verification, we find that many of these mathematical problems are unknown to experts and possess unique research value.
- Abstract(参考訳): 本論文は, LLMの数学的創造性に関する一連の研究の2番目である。
最初の論文では、LLMの数学的創造性を評価するための3つの基準を提案し、それを測定するためのベンチマークデータセットを構築した。
本稿では,LLMの数学的創造性について考察し,LLMが有益で最先端な数学的研究問題を生成できるかどうかを考察する。
我々は未知の問題を発生させるエージェントを開発し、微分幾何学における665の研究問題を発生させた。
人間の検証により、これらの数学的問題の多くは専門家には未知であり、独自の研究価値を持っていることが判明した。
関連論文リスト
- LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - CogMath: Assessing LLMs' Authentic Mathematical Ability from a Human Cognitive Perspective [68.94793547575343]
CogMathは、人間の推論プロセスを3段階に定式化している。
各次元において,この次元からLLMの熟達度を評価する問合せを生成するために,emphInquiry-emphJudge-emphReference'のマルチエージェントシステムの開発を行う。
LLMは、9次元からのすべての問い合わせに優れている場合にのみ、真に問題をマスターすると考えられている。
論文 参考訳(メタデータ) (2025-06-04T22:00:52Z) - RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [30.778394290919582]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - Assessing the Creativity of LLMs in Proposing Novel Solutions to Mathematical Problems [9.162206328913237]
本研究では,Large Language Models (LLMs) の数学的推論における創造的可能性について検討する。
本稿では,中学のカリキュラムからオリンピックレベルの競技までを含む新しいフレームワークとベンチマークであるCreativeMathを紹介する。
実験の結果, LLMは標準的な数学的なタスクではうまく機能するが, 創造的な問題解決能力は著しく異なることがわかった。
論文 参考訳(メタデータ) (2024-10-24T00:12:49Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large
Language Models [28.819559978685806]
大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。
構成的幾何学的問題解決におけるLLMの能力について検討する。
我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの分野で直面している顕著な課題を明らかにします。
論文 参考訳(メタデータ) (2024-02-06T10:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。