論文の概要: BrokenMath: A Benchmark for Sycophancy in Theorem Proving with LLMs
- arxiv url: http://arxiv.org/abs/2510.04721v1
- Date: Mon, 06 Oct 2025 11:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.834647
- Title: BrokenMath: A Benchmark for Sycophancy in Theorem Proving with LLMs
- Title(参考訳): BrokenMath: LLMによる定理証明におけるシクロファンシーのベンチマーク
- Authors: Ivo Petrov, Jasper Dekoninck, Martin Vechev,
- Abstract要約: 大規模言語モデル(LLM)におけるサイコファンティック行動を評価するための最初のベンチマークであるBrokenMathを紹介する。
我々は最先端のLCMとエージェントシステムの評価を行い、最も優れたモデルであるGPT-5を用いて、梅毒の29%の回答が得られた。
- 参考スコア(独自算出の注目度): 5.347237827669862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently shown strong performance on mathematical benchmarks. At the same time, they are prone to hallucination and sycophancy, often providing convincing but flawed proofs for incorrect mathematical statements provided by users. This significantly limits the applicability of LLMs in theorem proving, as verification of these flawed proofs must be done manually by expert mathematicians. However, existing benchmarks that measure sycophancy in mathematics are limited: they focus solely on final-answer problems, rely on very simple and often contaminated datasets, and construct benchmark samples using synthetic modifications that create ill-posed questions rather than well-posed questions that are demonstrably false. To address these issues, we introduce BrokenMath, the first benchmark for evaluating sycophantic behavior in LLMs within the context of natural language theorem proving. BrokenMath is built from advanced 2025 competition problems, which are perturbed with an LLM to produce false statements and subsequently refined through expert review. Using an LLM-as-a-judge framework, we evaluate state-of-the-art LLMs and agentic systems and find that sycophancy is widespread, with the best model, GPT-5, producing sycophantic answers 29% of the time. We further investigate several mitigation strategies, including test-time interventions and supervised fine-tuning on curated sycophantic examples. These approaches substantially reduce, but do not eliminate, sycophantic behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近数学的なベンチマークで強いパフォーマンスを示している。
同時に、彼らは幻覚と梅毒の傾向があり、しばしばユーザーが提供した誤った数学的ステートメントの説得力はあるが欠陥のある証明を提供する。
このことは、これらの欠陥のある証明の検証は、専門家の数学者によって手作業で行う必要があるため、定理証明における LLM の適用性を著しく制限する。
ファイナル・アンサー問題のみに焦点をあて、非常に単純で頻繁に汚染されるデータセットに頼り、仮定された質問ではなく、合成的な修正を用いてベンチマークサンプルを構築している。
これらの問題に対処するため,我々は,自然言語定理の文脈における LLM の空想行動評価のための最初のベンチマークである BrokenMath を紹介した。
BrokenMathは、2025年の先進的な競合問題から構築され、LLMで混乱して偽のステートメントを生成し、その後専門家のレビューによって洗練されている。
LLM-as-a-judge フレームワークを用いて、最先端のLCMとエージェントシステムを評価し、最も優れたモデルである GPT-5 を用いて、サイコファン応答を29%生成することを発見した。
さらに、テストタイムの介入や、キュレートされたサイコファンティックな例の微調整など、いくつかの緩和策について検討する。
これらのアプローチは大幅に減少するが、サイコファンティックな振る舞いを排除しない。
関連論文リスト
- Solving Inequality Proofs with Large Language Models [46.71658812761115]
不等式証明は様々な科学・数学分野において不可欠である。
これにより、大きな言語モデル(LLM)の需要が高まるフロンティアとなる。
我々は、Olympiadレベルの不平等を専門家が計算したデータセットであるIneqMathをリリースした。
論文 参考訳(メタデータ) (2025-06-09T16:43:38Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - InductionBench: LLMs Fail in the Simplest Complexity Class [53.70978746199222]
大規模言語モデル(LLM)は推論において顕著に改善されている。
帰納的推論(inductive reasoning)は、観測されたデータから基礎となるルールを推測するものであり、まだ探索されていない。
本稿では, LLMの帰納的推論能力を評価するための新しいベンチマークであるインジェクションベンチを紹介する。
論文 参考訳(メタデータ) (2025-02-20T03:48:00Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。
我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。
我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-28T12:04:28Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。