論文の概要: Examining False Positives under Inference Scaling for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2502.06217v1
- Date: Mon, 10 Feb 2025 07:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:24.410252
- Title: Examining False Positives under Inference Scaling for Mathematical Reasoning
- Title(参考訳): 数理推論のための推論スケーリングにおける偽陽性の検討
- Authors: Yu Wang, Nan Yang, Liang Wang, Furu Wei,
- Abstract要約: 本稿では,言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
擬陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
- 参考スコア(独自算出の注目度): 59.19191774050967
- License:
- Abstract: Recent advancements in language models have led to significant improvements in mathematical reasoning across various benchmarks. However, most of these benchmarks rely on automatic evaluation methods that only compare final answers using heuristics, without verifying the underlying reasoning steps. This limitation results in false positive solutions, where models may produce correct final answers but with flawed deduction paths. In this paper, we systematically examine the prevalence of false positive solutions in mathematical problem solving for language models. We analyze the characteristics and extent of this issue across different open-source models, datasets of varying difficulty levels, and decoding strategies. Specifically, we explore how false positives influence the inference time scaling behavior of language models. Our experimental results reveal that: (1) false positive solutions persist across different models, datasets, and decoding methods, (2) sampling-based inference time scaling methods do not alleviate the problem, and (3) the pass@N evaluation metric is more susceptible to false positives, suggesting a significantly lower scaling ceiling than what automatic evaluations indicate. Additionally, we analyze specific instances of false positives and discuss potential limitations in self-improvement techniques and synthetic data generation under such conditions.
- Abstract(参考訳): 近年の言語モデルの発展により、様々なベンチマークで数学的推論が大幅に改善されている。
しかし、これらのベンチマークのほとんどは、基礎となる推論ステップを検証せずに、ヒューリスティックスを用いて最終回答のみを比較する自動評価手法に依存している。
この制限は、モデルが正しい最終回答を生成できるが、推論経路に欠陥がある偽陽性解をもたらす。
本稿では,言語モデルにおける数学的問題の解法における偽陽性解の有意性について,体系的に検討する。
この問題の特徴と範囲を、さまざまなオープンソースモデル、さまざまな困難レベルのデータセット、デコード戦略にわたって分析する。
具体的には、偽陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
実験結果から,(1) 異なるモデル,データセット,デコード手法間で偽陽性解が持続し,(2) サンプリングベース推論時間スケーリング手法が問題を軽減することはなく,(3) パス@N評価基準が偽陽性の影響を受けることが示唆され,自動評価よりもはるかに低いスケーリング天井が示唆された。
さらに、偽陽性の特定の事例を分析し、そのような条件下での自己改善技術や合成データ生成の潜在的な限界について論じる。
関連論文リスト
- LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Learning Interpretable Temporal Properties from Positive Examples Only [27.929058359327186]
我々は,人間の解釈可能なモデルを用いて,ブラックボックスシステムの時間的挙動を説明する問題を考察する。
我々は決定論的有限オートマトン(DFAs)と線形時間論理(LTL)の基本的な解釈可能なモデルに依存している。
私たちのモチベーションは、特にブラックボックスシステムから否定的な例を観察することは一般的に困難であるということです。
論文 参考訳(メタデータ) (2022-09-06T17:04:09Z) - Efficient Learning of Accurate Surrogates for Simulations of Complex Systems [0.0]
サンプリング駆動サンプリングによって強化されたオンライン学習手法を提案する。
モデル応答面上のすべての旋回点がトレーニングデータに含まれることを保証する。
本手法を核物質のシミュレーションに適用し,高精度なサロゲートを確実に自動生成できることを実証する。
論文 参考訳(メタデータ) (2022-07-11T20:51:11Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - Relation-aware Graph Attention Model With Adaptive Self-adversarial
Training [29.240686573485718]
本稿では,不均一なマルチリレーショナルグラフにおける関係予測タスクのエンドツーエンドソリューションについて述べる。
特にパイプライン内の2つのビルディングブロック、すなわちヘテロジニアスグラフ表現学習と負のサンプリングに対処する。
パラメータフリーな負のサンプリング手法であるadaptive self-adversarial (asa) 負のサンプリングを導入する。
論文 参考訳(メタデータ) (2021-02-14T16:11:56Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。