論文の概要: Mining Math Conjectures from LLMs: A Pruning Approach
- arxiv url: http://arxiv.org/abs/2412.16177v1
- Date: Mon, 09 Dec 2024 19:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-29 08:29:30.439587
- Title: Mining Math Conjectures from LLMs: A Pruning Approach
- Title(参考訳): LLMからのマイニング・マンス・コンジェクチュア--プルーニング・アプローチ
- Authors: Jake Chuharski, Elias Rojas Collins, Mark Meringolo,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いた数理予想生成手法を提案する。
我々は、ChatGPT, Gemini, Claude などの LLM がどのようにして予想を生成するかを示す。
以上の結果から,LLM は,コード実行に制限があるにも関わらず,基本的ではないものの,正当性あるいは正当性がある,という予想を導出できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present a novel approach to generating mathematical conjectures using Large Language Models (LLMs). Focusing on the solubilizer, a relatively recent construct in group theory, we demonstrate how LLMs such as ChatGPT, Gemini, and Claude can be leveraged to generate conjectures. These conjectures are pruned by allowing the LLMs to generate counterexamples. Our results indicate that LLMs are capable of producing original conjectures that, while not groundbreaking, are either plausible or falsifiable via counterexamples, though they exhibit limitations in code execution.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を用いた数学的予想生成手法を提案する。
群論における比較的最近の構成である可溶化器に着目して、ChatGPT, Gemini, Claude などの LLM がどのようにして予想を生成するかを示す。
これらの予想は LLM が反例を生成することを許すことによって破られる。
以上の結果から,LLM は,コード実行に制限があるにも関わらず,基本的ではないものの,正当性あるいは正当性がある,という予想を導出できる可能性が示唆された。
関連論文リスト
- SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs [57.48325300739872]
証明生成のための数学的大規模言語モデルを活用することは、LLM研究の基本的なトピックである。
現状のLCMが証明できる能力は、学習中に関連する証明プロセスに遭遇したかどうかに大きく依存していると論じる。
人間の数学教育で一般的に用いられる「反例による防御」の教育的手法に触発されて,我々の研究は,反例を通して数学的推論と証明を行うLLMの能力を高めることを目的としている。
論文 参考訳(メタデータ) (2025-02-12T02:01:10Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Arithmetic Reasoning with LLM: Prolog Generation & Permutation [2.1867261071129125]
GSM8Kベンチマークでは,Prologに基づく算術的問題解決がCoT生成に優れていることが示されている。
我々は、データ拡張によるより堅牢なLCMトレーニングのための基礎的真理予測をパーミュレートすることを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:13:25Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - Counterexamples to the Low-Degree Conjecture [80.3668228845075]
ホプキンスの予想は、ある高次元仮説テスト問題に対して、非時間アルゴリズムはいわゆる「単純な統計」よりも優れていると仮定する。
この予想は、統計対計算のトレードオフを理解しようとする最近の研究のラインを囲む信念を定式化する。
論文 参考訳(メタデータ) (2020-04-17T21:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。