論文の概要: SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization
- arxiv url: http://arxiv.org/abs/2511.17938v1
- Date: Sat, 22 Nov 2025 06:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.526742
- Title: SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization
- Title(参考訳): SPINE: エントロピーバンド正規化によるToken-Selective Test-Time Reinforcement Learning
- Authors: Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai,
- Abstract要約: トークン選択型テスト時間強化学習フレームワークであるSPINEを提案する。
我々はSPINEがTTRLよりもPass@1を継続的に改善し、応答長の崩壊を避けていることを示す。
これらの結果から, 分岐点の整合性は, 安定かつ効果的なテスト時間適応のための単純かつラベルのない機構であることが示唆された。
- 参考スコア(独自算出の注目度): 24.699488237384134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and multimodal LLMs (MLLMs) excel at chain-of-thought reasoning but face distribution shift at test-time and a lack of verifiable supervision. Recent test-time reinforcement learning (TTRL) methods derive label-free pseudo-rewards from self-consistency voting over sampled trajectories, yet they often collapse: the majority-vote reward prevails, responses shorten, and Pass@1 declines. We trace this to uniform sequence updates in which most tokens are low-entropy followers, while a small high-entropy subset determines the reasoning branches. Thus we propose SPINE, a token-selective test-time reinforcement learning framework that (i) updates only forking tokens, the high-entropy branch points identified from forward-pass statistics, and (ii) applies an entropy-band regularizer at those tokens to sustain exploration when entropy is too low and to suppress noisy supervision when it is too high. SPINE plugs into GRPO-style objectives, optionally with a KL anchor, and requires no labels or reward models. Across ten benchmarks spanning multimodal VQA, general and expert QA, mathematical reasoning, and medical QA, SPINE consistently improves Pass@1 over TTRL while avoiding response-length collapse and yielding more stable training dynamics on both LLM and MLLM backbones. These results indicate that aligning updates with chain-of-thought branch points is a simple and label-free mechanism for stable and effective test-time adaptation in reasoning models. Code is available at https://github.com/JianghaoWu/SPINE.
- Abstract(参考訳): 大規模言語モデル (LLMs) とマルチモーダルLLM (MLLMs) はチェーン・オブ・シークレットの推論において優れるが、テスト時の顔の分布シフトや、検証可能な監督の欠如がある。
最近のテストタイム強化学習(TTRL)手法は、サンプル軌跡に対する自己整合性投票からラベルなしの擬似回帰を導出するが、多数決の報酬が優勢、応答が短くなる、Pass@1の減少など、しばしば崩壊する。
これは、ほとんどのトークンが低エントロピーのフォロワーであるのに対して、小さな高エントロピーの部分集合が推論枝を決定するような一様シーケンス更新に遡る。
そこで我々はトークン選択型テスト時間強化学習フレームワークSPINEを提案する。
一 トークンの偽造、前方通過統計から特定された高エントロピー分岐点、及び
二 エントロピーが低すぎるときの探査を継続し、高すぎるときの騒音の監視を抑えるため、これらのトークンにエントロピーバンド正規化器を適用する。
SPINEはGRPOスタイルの目標にプラグインし、オプションでKLアンカーを装着し、ラベルや報酬モデルを必要としない。
マルチモーダルVQA、一般およびエキスパートQA、数学的推論、医療QAにまたがる10のベンチマークにおいて、SPINEはTTRL上のPass@1を一貫して改善し、応答長の崩壊を回避し、LLMとMLLMのバックボーン上でより安定したトレーニングダイナミクスを提供する。
これらの結果から, 連鎖分岐点との整合性は, 推論モデルにおける安定かつ効果的なテスト時間適応のための単純かつラベルのない機構であることが示唆された。
コードはhttps://github.com/JianghaoWu/SPINE.comで入手できる。
関連論文リスト
- LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Markov Likelihood [9.335167757513046]
TEPOはトークンレベルのアグリゲーションを通じてグループレベルの報酬とトークンをリンクする,Markov Likelihood(シーケンス可能性)を組み込んだ新しいトークンレベルのフレームワークである。
実験によると、TEPOは主要なメトリクスで既存のベースラインを一貫して上回っている。
数学的推論タスクに新たな技術状態を設定するだけでなく、トレーニングの安定性を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-10T13:25:28Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文 参考訳(メタデータ) (2025-10-02T16:24:01Z) - Exploiting Tree Structure for Credit Assignment in RL Training of LLMs [11.64053639889468]
強化学習は推論を改善するが、長いシーケンスよりも遅れた報酬はトークンレベルのクレジット割り当てを重要なボトルネックにする。
最終回答がチェック可能で、プロンプト毎に複数の応答を描画できる検証可能な逆設定について検討する。
textbfTEMPO (emphtextbfTree-textbfEstimated textbfMean Prefix Value for textbfPolicy textbfOptimization)を提案する。
論文 参考訳(メタデータ) (2025-09-22T18:37:24Z) - From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature [38.46122853450324]
既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論プロセスにおける異なる役割を無視している。
本稿では,トークンエントロピーに基づく最適化を動的に適用するトークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を紹介する。
論文 参考訳(メタデータ) (2025-09-20T09:30:25Z) - Cautious Next Token Prediction [62.74127603725369]
我々は、CNTP(Cautious Next Token Prediction)と呼ばれる新しいトレーニングフリーデコード戦略を提案する。
復号過程において、モデルが特定のステップで比較的高い予測エントロピーを持つ場合、独立にステップから始まる複数の試行をサンプリングし、句読点に遭遇する際に停止する。
提案するCNTPアプローチは,既存の標準復号方式よりも明確なマージンで一貫した性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-07-03T05:49:18Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。