論文の概要: MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.17550v1
- Date: Thu, 19 Feb 2026 17:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.227658
- Title: MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning
- Title(参考訳): MASPO:ロバストかつサンプル効率のLLM推論のためのグラディエント利用、確率質量、信号信頼性の統合
- Authors: Xiaoliang Fu, Jiaye Lin, Yangyi Fang, Binbin Zheng, Chaowen Hu, Zekai Shao, Cong Qin, Lu Pan, Ke Zeng, Xunliang Cai,
- Abstract要約: 既存のReinforcement Learning with Verifiable Rewards (RLVR)アルゴリズムは、剛性、一様、対称的な信頼領域機構に依存している。
本稿では,これらの3次元を調和させる統合フレームワークであるMass-Adaptive Soft Policy Optimization (MASPO)を提案する。
MASPOは、勾配ユーティリティを最大化するために、微分可能なソフトガウスゲーティングと、確率スペクトル間の探索のバランスをとる質量適応リミッタと、信号の信頼性を調整するための非対称リスクコントローラを統合している。
- 参考スコア(独自算出の注目度): 16.012761588513026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Reinforcement Learning with Verifiable Rewards (RLVR) algorithms, such as GRPO, rely on rigid, uniform, and symmetric trust region mechanisms that are fundamentally misaligned with the complex optimization dynamics of Large Language Models (LLMs). In this paper, we identify three critical challenges in these methods: (1) inefficient gradient utilization caused by the binary cutoff of hard clipping, (2) insensitive probability mass arising from uniform ratio constraints that ignore the token distribution, and (3) asymmetric signal reliability stemming from the disparate credit assignment ambiguity between positive and negative samples. To bridge these gaps, we propose Mass-Adaptive Soft Policy Optimization (MASPO), a unified framework designed to harmonize these three dimensions. MASPO integrates a differentiable soft Gaussian gating to maximize gradient utility, a mass-adaptive limiter to balance exploration across the probability spectrum, and an asymmetric risk controller to align update magnitudes with signal confidence. Extensive evaluations demonstrate that MASPO serves as a robust, all-in-one RLVR solution, significantly outperforming strong baselines. Our code is available at: https://anonymous.4open.science/r/ma1/README.md.
- Abstract(参考訳): GRPOのような既存のReinforcement Learning with Verifiable Rewards (RLVR)アルゴリズムは、Large Language Models (LLMs) の複雑な最適化力学と根本的に一致しない剛性、均一性、および対称信頼領域のメカニズムに依存している。
本稿では,(1)ハードクリッピングの2次切断による非効率な勾配利用,(2)トークン分布を無視する一様比制約による不感な確率質量,(3)正と負のサンプル間の異なるクレジット割り当てのあいまいさから生じる非対称信号の信頼性,の3つの重要な課題を同定する。
これらのギャップを埋めるために,これらの3次元を調和させる統合フレームワークであるMass-Adaptive Soft Policy Optimization (MASPO)を提案する。
MASPOは、勾配ユーティリティを最大化するために、微分可能なソフトガウスゲーティングと、確率スペクトル間の探索のバランスをとる質量適応リミッタと、信号の信頼性を調整するための非対称リスクコントローラを統合している。
大規模な評価は、MASPOが堅牢でオールインワンのRLVRソリューションとして機能し、強力なベースラインを著しく上回っていることを示している。
私たちのコードは、https://anonymous.4open.science/r/ma1/README.mdで利用可能です。
関連論文リスト
- FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight [21.731032636844237]
本稿では,双方向のフォーマル・オブ・サートアーキテクチャを用いたニューロシンボリック・フレームワークを提案する。
行動安全,マルチドメイン制約順守,エージェントによる上向き偽装検出の3つのベンチマークにまたがって検証を行った。
論文 参考訳(メタデータ) (2026-02-11T18:48:11Z) - Equivariant Evidential Deep Learning for Interatomic Potentials [55.6997213490859]
不確かさの定量化は、分子動力学シミュレーションにおける機械学習の原子間ポテンシャルの信頼性を評価するために重要である。
既存のMLIPのUQアプローチは、高い計算コストや準最適性能によって制限されることが多い。
我々は,原子間ポテンシャルの定量的深層学習(texte2$IP)を提案する。
論文 参考訳(メタデータ) (2026-02-11T02:00:25Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Majorization-Minimization Networks for Inverse Problems: An Application to EEG Imaging [4.063392865490957]
逆問題はしばしば誤りを犯し、強い安定性と収束を保証する最適化スキームを必要とする。
本稿では,二段階最適化設定における逆問題に対する学習されたMajorization-Minimization(MM)フレームワークを提案する。
我々は,古典的MM降下保証を保ちながら,各MMステップを管理する構造化曲率行列を学習する。
論文 参考訳(メタデータ) (2026-01-23T10:33:45Z) - Feature-Space Adversarial Robustness Certification for Multimodal Large Language Models [59.6491828112519]
MLLM(Multimodal large language model)は、様々なアプリケーションにまたがる強力な機能を示す。
MLLMは、その特徴表現を歪め、誤った予測を誘発する敵の摂動に弱い。
本稿では,MLLMの特徴表現レベルにおいて,信頼性の高いロバスト性保証を提供する汎用フレームワークであるFeature-space Smoothing(FS)を提案する。
論文 参考訳(メタデータ) (2026-01-22T18:52:21Z) - Robust Iterative Learning Hidden Quantum Markov Models [0.7493761475572844]
隠れ量子マルコフモデル(HQMM)は古典的な隠れマルコフモデルを量子領域に拡張する。
既存のHQMM学習アルゴリズムは、データ破損に敏感であり、敵の摂動下で堅牢性を確保するメカニズムが欠如している。
本稿では,制御された観測系列を逆向きに破損させることにより,ロバスト性解析を形式化するHQMMを提案する。
論文 参考訳(メタデータ) (2025-10-27T11:48:44Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Stochastic Approximation Methods for Distortion Risk Measure Optimization [2.97238992700289]
本稿では2つの双対表現に基づくDRM最適化の降下アルゴリズムを提案する。
DM形式は3時間スケールのアルゴリズムを用いて量子関数を追跡し、勾配を計算し、決定変数を更新する。
QF形式はより単純な2時間スケールのアプローチを提供し、複雑な量子的勾配推定を必要としない。
論文 参考訳(メタデータ) (2025-10-06T07:59:09Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Robust Quantum Control: Analysis & Synthesis via Averaging [0.2320417845168326]
従来の平均化法に基づくロバストネス解析と量子(単位)制御合成のためのアプローチを提案する。
その結果は、名目上の(不確実性のない)忠実さと、よく知られた堅牢性尺度である相互作用(エラー)ハミルトニアン(英語版)のサイズとを競合する多重基準最適化(英語版)である。
論文 参考訳(メタデータ) (2022-08-30T12:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。