論文の概要: PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners
- arxiv url: http://arxiv.org/abs/2604.26573v1
- Date: Wed, 29 Apr 2026 11:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.384551
- Title: PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners
- Title(参考訳): PAINT: 自己蒸留型共振器の部分解法適応補間訓練
- Authors: Zhiquan Tan, Yinrong Hong,
- Abstract要約: 大規模言語モデル(LLM)推論には、モデル自身のテスト時間状態とトークンレベルの情報の両方に整合した監視が必要である。
近年の独占型自己蒸留は,同じモデルによる学生のロールアウトを,検証済みのソリューションコンテキスト下で評価することによって中等地を探索している。
ロールアウト-参照重なりに応じて検証された解を隠蔽し、エントロピー-ミスマッチトークンのスパースセットに小さなエネルギー空間を適用したPAINTを提案する。
- 参考スコア(独自算出の注目度): 9.324642081509756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving large language model (LLM) reasoning requires supervision that is both aligned with the model's own test-time states and informative at the token level. Reinforcement learning with verifiable rewards provides on-policy exploration but offers sparse, high-variance credit; supervised fine-tuning and distillation provide dense targets but often train on fixed trajectories or rely on stronger teachers. Recent privileged on-policy self-distillation explores a middle ground by scoring student rollouts with the same model under verified solution context. We revisit this setting through a contextual re-scoring lens: for reasoning, the important choices are not only whether privileged context is available, but how much of it should be revealed and where its distribution should shape the student. We propose PAINT (Partial-solution Adaptive INterpolated Training), which masks the verified solution according to rollout-reference overlap and applies a small energy-space interpolation on a sparse set of entropy-mismatch token positions. Across competition-level math benchmarks, PAINT consistently improves over a strong prior on-policy self-distillation baseline at all three Qwen3 scales. On Qwen3-8B, it raises macro Avg@12 by 2.1 points over this prior baseline and 2.9 points over GRPO.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の改善には、モデル自身のテスト時間状態とトークンレベルの情報の両方に整合した監視が必要である。
検証可能な報酬による強化学習は、政治上の探究を提供するが、希少で高分散の信用を提供する;監督された微調整と蒸留は密集した目標を提供するが、しばしば固定軌跡で訓練するか、より強い教師に依存する。
近年の独占型自己蒸留は, 学生のロールアウトを, 検証されたソリューションコンテキスト下で同じモデルで評価することにより, 中間地点を探索している。
我々は、この設定を文脈的再構成レンズを通して再考する: 推論にとって重要な選択は、特権的コンテキストが利用可能であるかどうかだけでなく、その多くを明らかにすべきであり、その分布が学生を形作るべき場所である。
本稿では、ロールアウト参照重なりに応じて検証されたソリューションをマスクし、エントロピー・ミスマッチトークンのスパースセットに小さなエネルギー空間補間を適用するPAINT(Partial-solution Adaptive Interpolated Training)を提案する。
競合レベルのベンチマークでは、PAINTは3つのQwen3スケールの強い事前の自己蒸留ベースラインよりも一貫して改善されている。
Qwen3-8Bでは、マクロAvg@12が以前のベースラインで2.1ポイント、GRPOで2.9ポイント上昇する。
関連論文リスト
- Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance [8.66471442661456]
隠れ状態分布は局所的推論品質に有用な信号を含むことを示す。
各GRPO群では, 局所的推論品質が変動する領域を中心に, スパンレベル隠れ状態分布間のワッサースタイン距離が増加する。
textbfSpan-level textbfHidden state textbfEd textbfAdvantage textbfReweightingを提案する。
論文 参考訳(メタデータ) (2026-04-25T14:11:23Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Find, Fix, Reason: Context Repair for Video Reasoning [45.021693494492666]
強化学習は、大規模なマルチモーダルモデルにおいて高度なビデオ推論を持つ。
凍結したツール統合された教師は、時間的依存の欠如を認識し、最小限のエビデンスパッチを提供する。
本稿では,正解による結果の妥当性と依存性の整合性という2つの目標に最適化を整合させるロバスト改善リワード(RIR)を提案する。
論文 参考訳(メタデータ) (2026-04-17T17:04:19Z) - SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting [17.504616835765617]
両経路適応型学習フレームワークを提案する。
SCOPEは、Avg@32で11.42%、Pass@32で7.30%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-04-12T15:26:14Z) - Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Self-Point-Flow: Self-Supervised Scene Flow Estimation from Point Clouds
with Optimal Transport and Random Walk [59.87525177207915]
シーンフローを近似する2点雲間の対応性を確立するための自己教師型手法を開発した。
本手法は,自己教師付き学習手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-18T03:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。