論文の概要: Rectify Evaluation Preference: Improving LLMs' Critique on Math Reasoning via Perplexity-aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.10303v1
- Date: Fri, 14 Nov 2025 01:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.806419
- Title: Rectify Evaluation Preference: Improving LLMs' Critique on Math Reasoning via Perplexity-aware Reinforcement Learning
- Title(参考訳): 再現性評価選好:難易度を考慮した強化学習による数学推論におけるLCMの批判を改善する
- Authors: Changyuan Tian, Zhicong Lu, Shuang Qian, Nayu Liu, Peiguang Li, Li Jin, Leiyi Hu, Zhizhao Zeng, Sirui Wang, Ke Zeng, Zhi Guo,
- Abstract要約: 本稿では,不均衡な評価嗜好の潜在的な理由を定量化し,検討する。
理由の分析により、評価の嗜好を正すために、新しいパープレキシティ対応強化学習アルゴリズムが提案されている。
- 参考スコア(独自算出の注目度): 34.43632129774481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve Multi-step Mathematical Reasoning (MsMR) of Large Language Models (LLMs), it is crucial to obtain scalable supervision from the corpus by automatically critiquing mistakes in the reasoning process of MsMR and rendering a final verdict of the problem-solution. Most existing methods rely on crafting high-quality supervised fine-tuning demonstrations for critiquing capability enhancement and pay little attention to delving into the underlying reason for the poor critiquing performance of LLMs. In this paper, we orthogonally quantify and investigate the potential reason -- imbalanced evaluation preference, and conduct a statistical preference analysis. Motivated by the analysis of the reason, a novel perplexity-aware reinforcement learning algorithm is proposed to rectify the evaluation preference, elevating the critiquing capability. Specifically, to probe into LLMs' critiquing characteristics, a One-to-many Problem-Solution (OPS) benchmark is meticulously constructed to quantify the behavior difference of LLMs when evaluating the problem solutions generated by itself and others. Then, to investigate the behavior difference in depth, we conduct a statistical preference analysis oriented on perplexity and find an intriguing phenomenon -- ``LLMs incline to judge solutions with lower perplexity as correct'', which is dubbed as \textit{imbalanced evaluation preference}. To rectify this preference, we regard perplexity as the baton in the algorithm of Group Relative Policy Optimization, supporting the LLMs to explore trajectories that judge lower perplexity as wrong and higher perplexity as correct. Extensive experimental results on our built OPS and existing available critic benchmarks demonstrate the validity of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)のマルチステップ数学的推論(MsMR)を改善するためには,MsMRの推論過程における誤りを自動的に判断し,問題解の最終的な検証を行うことで,コーパスからスケーラブルな監視を得ることが重要である。
既存のほとんどの手法は、LCMの質の悪い品質性能の根底にある理由を掘り下げることにほとんど注意を払わず、品質の高い教師付き微調整のデモを製作することに依存している。
本稿では,不均衡な評価選好の潜在的な理由を直交的に定量化し,統計的選好分析を行う。
理由の分析により,評価の嗜好を是正し,評価能力を高めるために,新しいパープレキシティ対応強化学習アルゴリズムが提案されている。
具体的には、LLMのクオリティ特性を調査するため、OPS(One-to-Many Problem-Solution)ベンチマークを精巧に構築し、LLMの挙動差を定量化する。
そこで,本研究では,難易度に着目した統計的選好分析を行い,難易度が低い解を正当と判断する「LLMs incline to judge the lower perplexity as correct」という興味深い現象を見出した。
この選好を正すため、我々は、LLM が、難易度を間違ったものと判断し、高い難易度を正しいと判断する軌跡を探索することを支援し、グループ相対政策最適化のアルゴリズムにおいて、難易度をバトンとみなす。
構築したOPSと既存の批評家ベンチマークの大規模な実験結果から,本手法の有効性が示された。
関連論文リスト
- IF-CRITIC: Towards a Fine-Grained LLM Critic for Instruction-Following Evaluation [87.38454788767545]
本稿では,大規模言語モデルにおける命令追従の評価モデルであるIF-CRITICを提案する。
IF-CRITICが提供するスケーラブルな報酬信号により、LLMは命令追従最適化においてかなりの性能向上を達成することができる。
論文 参考訳(メタデータ) (2025-11-02T17:06:49Z) - What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。
これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。
トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-10-23T14:30:37Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。