論文の概要: Silence the Judge: Reinforcement Learning with Self-Verifier via Latent Geometric Clustering
- arxiv url: http://arxiv.org/abs/2601.08427v1
- Date: Tue, 13 Jan 2026 10:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.158808
- Title: Silence the Judge: Reinforcement Learning with Self-Verifier via Latent Geometric Clustering
- Title(参考訳): 裁判官の沈黙:潜在幾何学的クラスタリングによる自己検証による強化学習
- Authors: Nonghai Zhang, Weitao Ma, Zhanyu Ma, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He, Jingwen Xu,
- Abstract要約: グループ相対政策最適化(GRPO)は大規模言語モデル(LLM)の推論性能を大幅に向上させる
我々は、潜在空間幾何学から直接本質的な報酬を導出するフレームワークであるLatent-GRPOを提案する。
本手法は,ベースラインに比べて2倍以上のトレーニング高速化を実現しつつ,モデル性能を維持していることを示す。
- 参考スコア(独自算出の注目度): 28.35101062722637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) significantly enhances the reasoning performance of Large Language Models (LLMs). However, this success heavily relies on expensive external verifiers or human rules. Such dependency not only leads to significant computational costs and training latency, but also yields sparse rewards that hinder optimization efficiency. To address these challenges, we propose Latent-GRPO, a framework that derives intrinsic rewards directly from latent space geometry. Crucially, our empirical analysis reveals a compelling geometric property: terminal token representations of correct reasoning trajectories form dense clusters with high intra-class similarity, whereas incorrect trajectories remain scattered as outliers. In light of this discovery, we introduce the Iterative Robust Centroid Estimation (IRCE) algorithm, which generates dense, continuous rewards by mitigating magnitude fluctuations via spherical projection and estimating a robust ``truth centroid'' through iterative aggregation. Experimental results on multiple datasets show that our method maintains model performance while achieving a training speedup of over 2x compared to baselines. Furthermore, extensive results demonstrate strong generalization ability and robustness. The code will be released soon.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は大規模言語モデル(LLM)の推論性能を大幅に向上させる。
しかし、この成功は高価な外部検証器や人間のルールに大きく依存している。
このような依存は計算コストとトレーニングの遅延をもたらすだけでなく、最適化の効率を損なうような低い報酬をもたらす。
これらの課題に対処するために、潜在空間幾何学から直接本質的な報酬を導出するフレームワークであるLatent-GRPOを提案する。
正確な推論軌跡の終端トークン表現は、高いクラス内類似度を持つ密集クラスタを形成するが、不正確な軌跡は、外れ値として分散している。
この発見を踏まえた反復ロバスト・セントロイド推定(IRCE)アルゴリズムを導入し,球面投影による等級変動を緩和し,反復アグリゲーションによるロバストな「トゥルト・セントロイド」を推定することにより,高密度かつ連続的な報酬を生成する。
複数のデータセットに対する実験結果から,本手法はベースラインに比べて2倍以上のトレーニング高速化を実現しつつ,モデル性能を維持していることがわかった。
さらに、広範な結果は強力な一般化能力と堅牢性を示している。
コードはまもなくリリースされる。
関連論文リスト
- ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations [2.709826237514737]
報酬フィードバックの幅は、オンラインの深層強化学習において依然として難しい問題である。
Smooth Guidance (POSG) を用いたポリシー最適化手法を提案する。
4つのスパース・リワード環境におけるPOSGの制御性能と収束速度の顕著な優位性を示す。
論文 参考訳(メタデータ) (2023-12-30T07:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。