論文の概要: Enhancing Mathematical Reasoning in Large Language Models with Self-Consistency-Based Hallucination Detection
- arxiv url: http://arxiv.org/abs/2504.09440v1
- Date: Sun, 13 Apr 2025 05:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:40.495081
- Title: Enhancing Mathematical Reasoning in Large Language Models with Self-Consistency-Based Hallucination Detection
- Title(参考訳): 自己整合性に基づく幻覚検出を用いた大規模言語モデルにおける数学的推論の強化
- Authors: MingShan Liu, Shi Bo, Jialing Fang,
- Abstract要約: 数学的推論の信頼性を高めるために,構造化自己整合性フレームワークを導入する。
本手法は,中間ステップと最終出力の自己整合性を強制し,論理的不整合や幻覚を低減させる。
実験の結果,SCは証明精度,記号的推論精度,数値安定性を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) have demonstrated strong mathematical reasoning capabilities but remain susceptible to hallucinations producing plausible yet incorrect statements especially in theorem proving, symbolic manipulation, and numerical computation. While self-consistency (SC) has been explored as a means to improve factuality in LLMs, existing approaches primarily apply SC to final-answer selection, neglecting the logical consistency of intermediate reasoning steps. In this work, we introduce a structured self-consistency framework designed to enhance the reliability of mathematical reasoning. Our method enforces self-consistency across intermediate steps and final outputs, reducing logical inconsistencies and hallucinations. We evaluate our approach across three core mathematical tasks: theorem proving, symbolic transformation, and numerical computation. Experimental results demonstrate that SC significantly improves proof validity, symbolic reasoning accuracy, and numerical stability while maintaining computational efficiency. Further analysis reveals that structured self-consistency not only enhances problem-solving accuracy but also reduces the variance of model-generated outputs. These findings highlight self-consistency as a robust mechanism for improving mathematical reasoning in LLMs, paving the way for more reliable and interpretable AI-driven mathematics.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力な数学的推論能力を示してきたが、特に定理証明、記号操作、数値計算において、もっとも正確で不正確な文を生成する幻覚の影響を受け続けている。
自己整合性(SC)は LLM の事実性を改善する手段として研究されているが、既存のアプローチは主に、中間的推論ステップの論理的整合性を無視して、最終回答選択にSCを適用している。
本研究では,数学的推論の信頼性を高めるために,構造化自己整合性フレームワークを導入する。
本手法は,中間ステップと最終出力の自己整合性を強制し,論理的不整合や幻覚を低減させる。
我々は、定理証明、記号変換、数値計算という3つの中心的な数学的課題にまたがるアプローチを評価する。
実験の結果,SCは計算効率を維持しつつ,証明妥当性,記号的推論精度,数値安定性を著しく向上することが示された。
さらに分析したところ、構造化された自己整合性は問題解決の精度を高めるだけでなく、モデル生成出力の分散を減少させることがわかった。
これらの知見は、LLMの数学的推論を改善するための堅牢なメカニズムとして自己整合性を強調し、より信頼性が高く解釈可能なAI駆動型数学への道を開いた。
関連論文リスト
- Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Large Language Models for Mathematical Analysis [3.7325315394927023]
この研究は、数学的推論における重要なギャップに対処し、信頼できるAIの進歩に寄与する。
DEMI-MathAnalysisデータセットを開発した。
また,LLMの問題解決能力を高めるためのガイドフレームワークも設計した。
論文 参考訳(メタデータ) (2024-12-28T20:37:55Z) - Emergence of Self-Identity in AI: A Mathematical Framework and Empirical Study with Generative Large Language Models [4.036530158875673]
本稿では,AIシステムにおける自己同一性の定義と定量化のための数学的枠組みを提案する。
我々の枠組みは、2つの数学的に定量化された条件から自己同一性が生じることを示唆している。
本研究の意義は、ヒューマノイドロボット工学や自律システムの分野に即時に関係している。
論文 参考訳(メタデータ) (2024-11-27T17:23:47Z) - Semantic Self-Consistency: Enhancing Language Model Reasoning via Semantic Weighting [5.110108181663884]
Wang et al.の自己整合性フレームワークは、多数決を受ける前に複数の論理をサンプリングすることで、様々なクローズド・アンサーの推論タスクにおけるモデルパフォーマンスを確実に改善する。
我々の研究は意味的自己整合性を導入し、多数決の前に最終的な決定に加えて、これらの理性の両方の理性経路を取り入れ、分析することでこのアプローチを強化します。
論文 参考訳(メタデータ) (2024-10-10T11:58:48Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Improved Logical Reasoning of Language Models via Differentiable
Symbolic Programming [12.984852480664378]
事前訓練された大規模言語モデル(LM)は、スケールと構成性の進歩にもかかわらず、論理的推論を確実に行うのに苦労する。
本稿では,DSR-LMを提案する。DSR-LMは,事前学習したLMが事実知識の認識を制御し,帰納的推論を行う,微分可能なシンボリック推論フレームワークである。
論文 参考訳(メタデータ) (2023-05-05T07:24:46Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。