論文の概要: Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.06533v1
- Date: Sat, 06 Dec 2025 18:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.400598
- Title: Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning
- Title(参考訳): Token-level Supervision:Reinforcement Learningによる復号型回帰の可能性を解き放つ
- Authors: Ming Chen, Sheng Tang, Rong-Xi Tan, Ziniu Li, Jiacheng Chen, Ke Xue, Chao Qian,
- Abstract要約: 強化学習(Reinforcement Learning, RL)による復号化の可能性を解き放つことを提案する。
生成過程をマルコフ決定プロセスとして定式化し、シーケンスレベルの報酬を利用してグローバルな数値コヒーレンスを強制する。
さらに,RLはサンプリング効率と予測精度を大幅に向上させ,デコードに基づく回帰を汎用数値予測の堅牢かつ正確なパラダイムとして確立することを明らかにした。
- 参考スコア(独自算出の注目度): 39.920697401868885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding-based regression, which reformulates regression as a sequence generation task, has emerged as a promising paradigm of applying large language models for numerical prediction. However, its progress is hindered by the misalignment between discrete token-level objectives (e.g., cross-entropy) and continuous numerical values. Existing approaches relying on token-level constraints often fail to capture the global magnitude of the target value, limiting their precision and generalization. In this paper, we propose to unlock the potential of decoding-based regression via Reinforcement Learning (RL). We formulate the generation process as a Markov Decision Process, utilizing sequence-level rewards to enforce global numerical coherence. Extensive experiments on tabular regression and code metric regression demonstrate that our method (specifically with ReMax and GRPO) consistently outperforms both state-of-the-art token-level baselines and traditional regression heads, showing the superiority of introducing sequence-level signals. Our analysis further reveals that RL significantly enhances sampling efficiency and predictive precision, establishing decoding-based regression as a robust and accurate paradigm for general-purpose numerical prediction.
- Abstract(参考訳): 逐次生成タスクとして回帰を再構成する復号型回帰は,数値予測に大規模言語モデルを適用する上で有望なパラダイムとして浮上している。
しかし、その進歩は、離散トークンレベルの目的(例えば、クロスエントロピー)と連続数値の相違によって妨げられている。
トークンレベルの制約に依存する既存のアプローチは、しばしば目標値のグローバルな大きさを捉えず、精度と一般化を制限している。
本稿では,Reinforcement Learning (RL) による復号化の可能性を解き放つことを提案する。
生成過程をマルコフ決定プロセスとして定式化し、シーケンスレベルの報酬を利用してグローバルな数値コヒーレンスを強制する。
特にReMaxとGRPOの併用による表層回帰と符号測度回帰に関する大規模な実験により,我々の手法は,最先端のトークンレベルベースラインと従来の回帰ヘッドの両方を一貫して上回り,シーケンスレベル信号の導入の優位性を示している。
さらに,RLはサンプリング効率と予測精度を大幅に向上させ,デコードに基づく回帰を汎用数値予測の堅牢かつ正確なパラダイムとして確立することを明らかにした。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。
実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。
合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T17:52:12Z) - RL as Regressor: A Reinforcement Learning Approach for Function Approximation [0.0]
強化学習(RL)問題としてフレーミング回帰を提案する。
モデルの予測をアクションとして扱い、予測誤差に基づいてカスタム報酬信号を定義することでこれを実証する。
我々は,RLフレームワークが回帰問題をうまく解決するだけでなく,目的の定義や学習プロセスの指導において柔軟性も向上することを示した。
論文 参考訳(メタデータ) (2025-07-31T21:39:24Z) - Decoding-based Regression [29.15816693410931]
特徴表現が与えられた数値回帰ヘッドとして因果列復号モデルの有用性について検討する。
通常の方法でトレーニングされているにもかかわらず、デコーダベースのヘッドは、標準回帰タスクよりもベンチマークされた場合、標準的なポイントワイドヘッドと同じくらいパフォーマンスが高いことが分かりました。
論文 参考訳(メタデータ) (2025-01-31T18:37:42Z) - Generative Regression Based Watch Time Prediction for Short-Video Recommendation [36.95095097454143]
短いビデオレコメンデーションシステムでは、時計の時間予測が重要なタスクとして現れている。
最近の研究は、連続時計時間推定を正規回帰タスクに変換することによって、これらの問題に対処しようとしている。
本稿では,WTPをシーケンス生成タスクとして再構成する新しい生成回帰(GR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T16:48:55Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - ResMem: Learn what you can and memorize the rest [79.19649788662511]
本稿では,既存の予測モデルを拡張するための残差記憶アルゴリズム(ResMem)を提案する。
構築によって、ResMemはトレーニングラベルを明示的に記憶することができる。
ResMemは、元の予測モデルのテストセットの一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2023-02-03T07:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。