論文の概要: Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
- arxiv url: http://arxiv.org/abs/2507.10532v1
- Date: Mon, 14 Jul 2025 17:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 20:53:35.15621
- Title: Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
- Title(参考訳): 推論と記憶 : データ汚染による強化学習の信頼性の低い結果
- Authors: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang,
- Abstract要約: Qwen2.5は強力な数学的推論性能を示すが、大規模ウェブコーパスでの事前学習はデータ汚染に弱いことを示す。
我々は任意の長さと難易度を持つ完全合成算術問題を生成するジェネレータを導入し、RandomCalculationと呼ばれるクリーンなデータセットを生成する。
これらの漏洩のないデータセットを用いて、ノイズや誤った信号がなければ、精度の高い報酬信号のみが継続的に性能を改善することを示す。
- 参考スコア(独自算出の注目度): 68.54308967669795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning capabilities of large language models (LLMs) have been a longstanding focus of research. Recent works have further enhanced these capabilities using reinforcement learning (RL), with many new methods claiming significant improvements with minimal or no external supervision. Surprisingly, some studies even suggest that random or incorrect reward signals can enhance reasoning performance. However, these breakthroughs are mostly reported on the Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500, AMC, and AIME, while failing to achieve similar gains on other models like Llama, which warrants further investigation. Our analysis shows that although Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on large-scale web corpora makes it vulnerable to data contamination in popular benchmarks. As a result, results derived from these benchmarks may be unreliable. To address this, we introduce a generator that produces fully synthetic arithmetic problems of arbitrary length and difficulty, yielding a clean dataset we call RandomCalculation. Using these leakage-free datasets, we show that only accurate reward signals consistently improve performance, while noisy or incorrect signals do not. We advocate for evaluating RL methods on uncontaminated benchmarks and across diverse model families to ensure trustworthy conclusions.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、長い間研究の焦点であった。
最近の研究は、強化学習(RL)を用いてこれらの能力をさらに強化しており、多くの新しい手法が、最小限または非外部監視による大幅な改善を主張している。
驚くべきことに、いくつかの研究は、ランダムまたは不正な報酬信号が推論性能を高めることを示唆している。
しかしながら、これらのブレークスルーはQwen2.5モデルファミリで報告され、MATH-500、AMC、AIMEなどの有名なベンチマークで評価されるが、Llamaのような他のモデルでは同様の成果が得られず、さらなる調査が保証されている。
解析の結果、Qwen2.5は強力な数学的推論性能を達成しているが、大規模なWebコーパスでの事前学習により、一般的なベンチマークにおけるデータ汚染に対して脆弱であることがわかった。
その結果、これらのベンチマークから得られた結果は信頼できない可能性がある。
そこで我々は,任意の長さと難易度を持つ完全合成算術問題を生成するジェネレータを導入し,RandomCalculationと呼ぶクリーンなデータセットを生成する。
これらの漏洩のないデータセットを用いて、ノイズや誤った信号がなければ、精度の高い報酬信号のみが継続的に性能を改善することを示す。
我々は、信頼に値する結論を得るために、汚染されていないベンチマークや様々なモデルファミリに対するRL手法の評価を提唱する。
関連論文リスト
- Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks [25.295071827427677]
Emphbenchmarkの汚染は テスト問題の公開によって発生します
評価の脆弱さは、単一インスタンスの評価に依存することに起因する。
IME-MATHは、真の推論能力を調査するために設計されたシンボリック評価フレームワークである。
論文 参考訳(メタデータ) (2025-07-17T08:10:55Z) - REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once [33.049237516125146]
REST(Reasoning Evaluation through Simultaneous Testing)は、大規模推論モデルを複数の問題に同時に公開するストレステストフレームワークである。
DeepSeek-R1のような最先端(SOTA)モデルでさえ、ストレステストにおいてかなりの性能低下を示します。
論文 参考訳(メタデータ) (2025-07-14T17:58:47Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文 参考訳(メタデータ) (2025-06-02T09:46:08Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。
これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad [0.8030359871216614]
我々は2025年のUSAMOの6つの問題に対して、最先端の推論モデルを評価する。
Gemini-2.5-Proのみが25%という非自明なスコアを達成している。
以上の結果から,現在のLLMは厳密な数学的推論作業には不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-03-27T19:21:05Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation [0.9332308328407303]
条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。
本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。
本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T13:39:32Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。