論文の概要: Mining Math Conjectures from LLMs: A Pruning Approach
- arxiv url: http://arxiv.org/abs/2412.16177v1
- Date: Mon, 09 Dec 2024 19:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 03:07:49.835658
- Title: Mining Math Conjectures from LLMs: A Pruning Approach
- Title(参考訳): LLMからのマイニング・マンス・コンジェクチュア--プルーニング・アプローチ
- Authors: Jake Chuharski, Elias Rojas Collins, Mark Meringolo,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いた数理予想生成手法を提案する。
我々は、ChatGPT, Gemini, Claude などの LLM がどのようにして予想を生成するかを示す。
以上の結果から,LLM は,コード実行に制限があるにも関わらず,基本的ではないものの,正当性あるいは正当性がある,という予想を導出できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel approach to generating mathematical conjectures using Large Language Models (LLMs). Focusing on the solubilizer, a relatively recent construct in group theory, we demonstrate how LLMs such as ChatGPT, Gemini, and Claude can be leveraged to generate conjectures. These conjectures are pruned by allowing the LLMs to generate counterexamples. Our results indicate that LLMs are capable of producing original conjectures that, while not groundbreaking, are either plausible or falsifiable via counterexamples, though they exhibit limitations in code execution.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を用いた数学的予想生成手法を提案する。
群論における比較的最近の構成である可溶化器に着目して、ChatGPT, Gemini, Claude などの LLM がどのようにして予想を生成するかを示す。
これらの予想は LLM が反例を生成することを許すことによって破られる。
以上の結果から,LLM は,コード実行に制限があるにも関わらず,基本的ではないものの,正当性あるいは正当性がある,という予想を導出できる可能性が示唆された。
関連論文リスト
- Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning [3.0449420665138485]
大規模言語モデル(LLM)は、特に数学において、公式な推論能力への関心を高めている。
そこで本研究では,より弱いLLMからの意見の混合(MoO)を利用して,(相対的に)強いLLM推論を強化するポストトレーニング手法を提案する。
その結果,LLMの考え方を取り入れることで,数学的推論が平均5%向上し,推論作業における多様な視点の価値が浮き彫りになることがわかった。
論文 参考訳(メタデータ) (2025-02-26T23:22:02Z) - InductionBench: LLMs Fail in the Simplest Complexity Class [53.70978746199222]
大規模言語モデル(LLM)は推論において顕著に改善されている。
帰納的推論(inductive reasoning)は、観測されたデータから基礎となるルールを推測するものであり、まだ探索されていない。
本稿では, LLMの帰納的推論能力を評価するための新しいベンチマークであるインジェクションベンチを紹介する。
論文 参考訳(メタデータ) (2025-02-20T03:48:00Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs [57.48325300739872]
証明生成のための数学的大規模言語モデルを活用することは、LLM研究の基本的なトピックである。
現状のLCMが証明できる能力は、学習中に関連する証明プロセスに遭遇したかどうかに大きく依存していると論じる。
人間の数学教育で一般的に用いられる「反例による防御」の教育的手法に触発されて,我々の研究は,反例を通して数学的推論と証明を行うLLMの能力を高めることを目的としている。
論文 参考訳(メタデータ) (2025-02-12T02:01:10Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference [20.057611113206324]
本研究では,大規模言語モデル (LLM) を早急に規定された規則に従う方法について検討する。
LLMはそのような規則を忠実に従えるが、悪意のあるプロンプトは理想化された理論的なモデルさえも誤解させる可能性があることを証明している。
論文 参考訳(メタデータ) (2024-06-21T19:18:16Z) - Arithmetic Reasoning with LLM: Prolog Generation & Permutation [2.1867261071129125]
GSM8Kベンチマークでは,Prologに基づく算術的問題解決がCoT生成に優れていることが示されている。
我々は、データ拡張によるより堅牢なLCMトレーニングのための基礎的真理予測をパーミュレートすることを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:13:25Z) - ATG: Benchmarking Automated Theorem Generation for Generative Language Models [83.93978859348313]
人間はより広範に複雑な数学的結果を探求するために新しい定理を開発することができる。
現在の生成言語モデル(LM)は、定理の自動証明において著しく改善されている。
本稿では,エージェントが価値ある(あるいは新しい)定理を自動生成できるかどうかを評価する自動定理生成ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-05T02:06:37Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Counterexamples to the Low-Degree Conjecture [80.3668228845075]
ホプキンスの予想は、ある高次元仮説テスト問題に対して、非時間アルゴリズムはいわゆる「単純な統計」よりも優れていると仮定する。
この予想は、統計対計算のトレードオフを理解しようとする最近の研究のラインを囲む信念を定式化する。
論文 参考訳(メタデータ) (2020-04-17T21:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。