論文の概要: MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.17550v2
- Date: Tue, 24 Feb 2026 08:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 13:30:08.464795
- Title: MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning
- Title(参考訳): MASPO:ロバストかつサンプル効率のLLM推論のためのグラディエント利用、確率質量、信号信頼性の統合
- Authors: Xiaoliang Fu, Jiaye Lin, Yangyi Fang, Binbin Zheng, Chaowen Hu, Zekai Shao, Cong Qin, Lu Pan, Ke Zeng, Xunliang Cai,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR)アルゴリズムは、剛性、均一性、および対称性のある信頼領域機構に依存している。
本稿では,これらの3次元を調和させる統合フレームワークであるMass-Adaptive Soft Policy Optimization (MASPO)を提案する。
MASPOは、勾配ユーティリティを最大化するために、微分可能なソフトガウスゲーティングと、確率スペクトル間の探索のバランスをとる質量適応リミッタと、信号の信頼性を調整するための非対称リスクコントローラを統合している。
- 参考スコア(独自算出の注目度): 16.012761588513026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Reinforcement Learning with Verifiable Rewards (RLVR) algorithms, such as GRPO, rely on rigid, uniform, and symmetric trust region mechanisms that are fundamentally misaligned with the complex optimization dynamics of Large Language Models (LLMs). In this paper, we identify three critical challenges in these methods: (1) inefficient gradient utilization caused by the binary cutoff of hard clipping, (2) insensitive probability mass arising from uniform ratio constraints that ignore the token distribution, and (3) asymmetric signal reliability stemming from the disparate credit assignment ambiguity between positive and negative samples. To bridge these gaps, we propose Mass-Adaptive Soft Policy Optimization (MASPO), a unified framework designed to harmonize these three dimensions. MASPO integrates a differentiable soft Gaussian gating to maximize gradient utility, a mass-adaptive limiter to balance exploration across the probability spectrum, and an asymmetric risk controller to align update magnitudes with signal confidence. Extensive evaluations demonstrate that MASPO serves as a robust, all-in-one RLVR solution, significantly outperforming baselines. Our code is at: \href{https://github.com/VenomRose-Juri/MASPO-RL}{https://github.com/VenomRose-Juri/MASPO-RL}.
- Abstract(参考訳): GRPOのような既存のReinforcement Learning with Verifiable Rewards (RLVR)アルゴリズムは、Large Language Models (LLMs) の複雑な最適化力学と根本的に一致しない剛性、均一性、および対称信頼領域のメカニズムに依存している。
本稿では,(1)ハードクリッピングの2次切断による非効率な勾配利用,(2)トークン分布を無視する一様比制約による不感な確率質量,(3)正と負のサンプル間の異なるクレジット割り当てのあいまいさから生じる非対称信号の信頼性,の3つの重要な課題を同定する。
これらのギャップを埋めるために,これらの3次元を調和させる統合フレームワークであるMass-Adaptive Soft Policy Optimization (MASPO)を提案する。
MASPOは、勾配ユーティリティを最大化するために、微分可能なソフトガウスゲーティングと、確率スペクトル間の探索のバランスをとる質量適応リミッタと、信号の信頼性を調整するための非対称リスクコントローラを統合している。
大規模な評価では、MASPOはロバストでオールインワンのRLVRソリューションとして機能し、ベースラインを大幅に上回っている。
私たちのコードは次の通りです。 \href{https://github.com/VenomRose-Juri/MASPO-RL}{https://github.com/VenomRose-Juri/MASPO-RL}。
関連論文リスト
- Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight [21.731032636844237]
本稿では,双方向のフォーマル・オブ・サートアーキテクチャを用いたニューロシンボリック・フレームワークを提案する。
行動安全,マルチドメイン制約順守,エージェントによる上向き偽装検出の3つのベンチマークにまたがって検証を行った。
論文 参考訳(メタデータ) (2026-02-11T18:48:11Z) - Equivariant Evidential Deep Learning for Interatomic Potentials [55.6997213490859]
不確かさの定量化は、分子動力学シミュレーションにおける機械学習の原子間ポテンシャルの信頼性を評価するために重要である。
既存のMLIPのUQアプローチは、高い計算コストや準最適性能によって制限されることが多い。
我々は,原子間ポテンシャルの定量的深層学習(texte2$IP)を提案する。
論文 参考訳(メタデータ) (2026-02-11T02:00:25Z) - Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals [18.612081365101464]
我々は,標準ラベル付き結果と,モデルが補助的推論連鎖を判断することで得られるペアワイズ比較信号とを組み合わせたフレームワークを開発する。
シミュレーション全体では, モデル出力ノイズの増加に伴い, 評価精度が大幅に向上し, ゲインが増大する。
GPQA Diamond、AIME 2025、GSM8Kの実験では、より正確な性能推定とより信頼性の高いモデルランキングが示されている。
論文 参考訳(メタデータ) (2026-02-03T03:40:01Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Generation Order and Parallel Decoding in Masked Diffusion Models: An Information-Theoretic Perspective [16.942478643768144]
Masked Diffusion Models (MDMs) は、逐次決定論のトレードオフによって推論を著しく加速する。
我々は,2つの障害源である順序感度と並列化バイアスを分離し,解析するための統合情報理論フレームワークを提供する。
論文 参考訳(メタデータ) (2026-01-30T20:15:18Z) - Majorization-Minimization Networks for Inverse Problems: An Application to EEG Imaging [4.063392865490957]
逆問題はしばしば誤りを犯し、強い安定性と収束を保証する最適化スキームを必要とする。
本稿では,二段階最適化設定における逆問題に対する学習されたMajorization-Minimization(MM)フレームワークを提案する。
我々は,古典的MM降下保証を保ちながら,各MMステップを管理する構造化曲率行列を学習する。
論文 参考訳(メタデータ) (2026-01-23T10:33:45Z) - Feature-Space Adversarial Robustness Certification for Multimodal Large Language Models [59.6491828112519]
MLLM(Multimodal large language model)は、様々なアプリケーションにまたがる強力な機能を示す。
MLLMは、その特徴表現を歪め、誤った予測を誘発する敵の摂動に弱い。
本稿では,MLLMの特徴表現レベルにおいて,信頼性の高いロバスト性保証を提供する汎用フレームワークであるFeature-space Smoothing(FS)を提案する。
論文 参考訳(メタデータ) (2026-01-22T18:52:21Z) - RMBRec: Robust Multi-Behavior Recommendation towards Target Behaviors [26.88506691092044]
ターゲット行動に対するロバスト多行動勧告(RMBRec)を提案する。
RMBRecは、情報理論の堅牢性原理に基づく、堅牢なマルチビヘイビアレコメンデーションフレームワークである。
RMBRecは最先端の手法よりも精度が高く,様々なノイズ摂動下では顕著な安定性を維持している。
論文 参考訳(メタデータ) (2026-01-13T16:34:17Z) - Reinforcement Learning Using known Invariances [54.91261509214309]
本稿では、既知のグループ対称性をカーネルベースの強化学習に組み込むための理論的枠組みを開発する。
対称性を意識したRLは、標準のカーネルよりも大幅に性能が向上することを示す。
論文 参考訳(メタデータ) (2025-11-05T13:56:14Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Robust Iterative Learning Hidden Quantum Markov Models [0.7493761475572844]
隠れ量子マルコフモデル(HQMM)は古典的な隠れマルコフモデルを量子領域に拡張する。
既存のHQMM学習アルゴリズムは、データ破損に敏感であり、敵の摂動下で堅牢性を確保するメカニズムが欠如している。
本稿では,制御された観測系列を逆向きに破損させることにより,ロバスト性解析を形式化するHQMMを提案する。
論文 参考訳(メタデータ) (2025-10-27T11:48:44Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Stochastic Approximation Methods for Distortion Risk Measure Optimization [2.97238992700289]
本稿では2つの双対表現に基づくDRM最適化の降下アルゴリズムを提案する。
DM形式は3時間スケールのアルゴリズムを用いて量子関数を追跡し、勾配を計算し、決定変数を更新する。
QF形式はより単純な2時間スケールのアプローチを提供し、複雑な量子的勾配推定を必要としない。
論文 参考訳(メタデータ) (2025-10-06T07:59:09Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Robust Quantum Control: Analysis & Synthesis via Averaging [0.2320417845168326]
従来の平均化法に基づくロバストネス解析と量子(単位)制御合成のためのアプローチを提案する。
その結果は、名目上の(不確実性のない)忠実さと、よく知られた堅牢性尺度である相互作用(エラー)ハミルトニアン(英語版)のサイズとを競合する多重基準最適化(英語版)である。
論文 参考訳(メタデータ) (2022-08-30T12:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。