Fugu-MT 論文翻訳(概要): Distribution-Aware Reward: Reinforcement Learning over Predictive Distributions for LLM Regression

論文の概要: Distribution-Aware Reward: Reinforcement Learning over Predictive Distributions for LLM Regression

arxiv url: http://arxiv.org/abs/2605.20740v1
Date: Wed, 20 May 2026 05:43:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.502524
Title: Distribution-Aware Reward: Reinforcement Learning over Predictive Distributions for LLM Regression
Title（参考訳）: 分布認識リワード:LLM回帰の予測分布に基づく強化学習
Authors: Jungsoo Park, Hyungjoo Chae, Ethan Mendes, Jay DeYoung, Varsha Kishore, Wei Xu, Alan Ritter,
Abstract要約: 大規模言語モデルは、テキスト、コード、分子文字列などの異種入力から実数値を予測できる。ほとんどのトレーニング対象は、各デコードされた浮動小数点数を独立にスコアし、キャリブレーションされた予測分布を確保せずに点推定を改善する。本稿では,より優れた予測分布を生成するために,言語モデルを訓練する上で主に貢献するオンライン強化学習目標であるDistribution-Aware Rewardを紹介する。
参考スコア（独自算出の注目度）: 31.507053461689523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models can predict real-valued quantities from heterogeneous inputs such as text, code, and molecular strings, but most training objectives score each decoded floating-point number independently, improving point estimates without ensuring calibrated predictive distributions. This limits applications requiring candidate ranking or uncertainty estimation. We introduce Distribution-Aware Reward, an on-policy reinforcement learning objective whose main contribution is to train language models to produce better predictive distributions for regression tasks, rather than only optimizing individual decoded outputs against scalar targets. Our method treats multiple decoded samples as an empirical predictive distribution, evaluates it with the Continuous Ranked Probability Score, and assigns leave-one-out credit based on each rollout's marginal contribution to distribution quality, rewarding predictions that are both accurate and appropriately dispersed. We evaluate our method on a controlled Gaussian-mixture task, code performance prediction, and molecular property prediction from SMILES strings. Across tasks, our method improves over supervised fine-tuning and pointwise reinforcement learning baselines, with strong rank-correlation gains, including a 6-point Spearman improvement on KBSS. On MoleculeNet, it uses only SMILES strings yet remains competitive with strong graph-based and 3D molecular models. Further analyses show that our method mitigates rollout diversity collapse and improves uncertainty diagnostics, suggesting that directly optimizing predictive distributions makes language model regression more robust and better calibrated.
Abstract（参考訳）: 大規模言語モデルは、テキスト、コード、分子文字列などの異種入力から実数値を予測できるが、ほとんどの訓練目的は、復号された浮動小数点数を個別にスコアし、校正された予測分布を確保せずに点推定を改善する。これは、候補ランキングや不確実性推定を必要とするアプリケーションを制限する。本研究では,個別の復号化出力をスカラー目標に対して最適化するだけでなく,回帰タスクの予測分布を改善するための言語モデルを訓練することを目的とする,オンライン強化学習の目標であるDistributed-Aware Rewardを紹介する。提案手法は,複数の復号化サンプルを経験的予測分布として扱い,連続ランク付確率スコアを用いて評価し,各ロールアウトの分布品質に対する限界的貢献に基づいて,正確かつ適切に分散した予測を報奨する。我々は,制御されたガウス混合タスク,コード性能予測,SMILES文字列からの分子特性予測について評価を行った。タスク全体にわたって、教師付き微調整およびポイントワイド強化学習ベースラインを改良し、KBSSの6点スピアマン改善を含む強力なランク相関ゲインを得た。 MoleculeNetでは、SMILES文字列のみを使用するが、強力なグラフベースおよび3D分子モデルと競合する。さらに,本手法は転がり多様性の崩壊を軽減し,不確実性診断を改善することを示し,予測分布を直接最適化することにより,言語モデルの回帰がより堅牢でキャリブレーションが良くなることを示す。

関連論文リスト

Unsupervised Confidence Calibration for Reasoning LLMs from a Single Generation [2.526814143603023]
言語モデルの推論は、ますます複雑なタスクを解決することができるが、信頼性の高いデプロイメントに必要なキャリブレーションされた信頼推定を生成するのに苦労する。推論時間に1世代しか利用できない場合,LLMを推論するための教師なし信頼度校正手法を提案する。このアプローチでは、ラベル付きデータのオフラインサンプリングを使用して、自己整合性ベースのプロキシターゲットを導出し、この信号を軽量なデプロイメント時間信頼性予測器に蒸留する。
論文参考訳（メタデータ） (2026-04-21T13:25:25Z)
Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文参考訳（メタデータ） (2025-07-11T08:00:47Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Distributionally Robust Post-hoc Classifiers under Prior Shifts [31.237674771958165]
本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題点について検討する。本稿では,事前学習モデルからの予測に対するスケーリング調整を行う,非常に軽量なポストホック手法を提案する。
論文参考訳（メタデータ） (2023-09-16T00:54:57Z)
Distributionally Robust Learning for Multi-source Unsupervised Domain Adaptation [9.359714425373616]
対象ドメインの分布がソースドメインの分布と異なる場合、経験的リスクはよく機能しない。我々は、複数のソースドメインからのラベル付きデータと対象ドメインからのラベルなしデータを活用する、教師なしのドメイン適応アプローチを開発する。
論文参考訳（メタデータ） (2023-09-05T13:19:40Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文参考訳（メタデータ） (2023-02-23T18:57:14Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Unlabelled Data Improves Bayesian Uncertainty Calibration under Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文参考訳（メタデータ） (2020-06-26T13:50:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。