論文の概要: DISA: Offline Importance Sampling for Distribution-Matching LLM-RL
- arxiv url: http://arxiv.org/abs/2605.17295v1
- Date: Sun, 17 May 2026 07:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.837514
- Title: DISA: Offline Importance Sampling for Distribution-Matching LLM-RL
- Title(参考訳): DISA: 配電型LLM-RLにおけるオフライン重要度サンプリング
- Authors: Shaobo Wang, Yujie Chen, Yafeng Sun, Wenjie Qiu, Zhihui Xie, Sihang Li, Yucheng Li, Huiqiang Jiang, Xingzhang Ren, Xuming Hu, Dayiheng Liu, Linfeng Zhang,
- Abstract要約: 本稿では、このキャリブレーション問題をRLループの外に移動させるdisAを紹介する。
DISAは提案トラジェクトリをオフラインに描画し、重要サンプリングによってパーティション関数を推定し、結果として発生するパーティション関数の推定を凍結する。
6つの数学と3つのコードベンチマークにまたがる2つのオープンウェイトなバックボーンでは、DisdisAはオンラインに結合した分散マッチングベースラインフローにマッチするか、超えている。
- 参考スコア(独自算出の注目度): 56.9445657766829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern reasoning agents are increasingly evaluated on their ability to generate multiple valid solution paths, plans, or tool-use traces for a given input. Standard reward-maximizing RL tends to collapse onto the most easily reinforced high-reward mode, whereas distribution-matching RL aims to allocate probability mass across the entire reward-shaped solution set. Achieving this objective requires computing a prompt-dependent partition function over the trajectory space. Because existing distribution-matching methods learn this partition function online alongside the policy, calibration errors in the partition function directly distort policy updates and remain impossible to diagnose independently. We introduce DISA, short for Decoupled Importance-Sampled Anchoring, which moves this calibration problem outside the RL loop. DISA draws proposal trajectories offline, estimates the partition function via importance sampling, and freezes the resulting partition-function estimate before policy optimization begins. This decoupling preserves the distribution-matching objective while strictly separating partition-function estimation from policy learning in data, gradients, loss, and diagnostics. Empirically, on two open-weight backbones across six math and three code benchmarks, DISA matches or exceeds the online-coupled distribution-matching baseline FlowRL, outperforms rewardmaximization baselines GRPO and GSPO on math averages, and exceeds LoRASFT distillation by up to 13.8 Mean@8 points on the same offline trajectories. An LLM-as-judge evaluation further shows that DISA retains substantially more strategy-level diversity than reward-maximization baselines, and sensitivity studies on the proposal strength and inverse temperature follow the bias-variance pattern predicted by the analysis.
- Abstract(参考訳): 現代の推論エージェントは、与えられた入力に対して複数の有効なソリューションパス、計画、ツール使用トレースを生成する能力について、ますます評価されている。
標準的な報酬最大化 RL は最も容易に強化された高逆モードに崩壊する傾向にあり、一方分布マッチング RL は報酬型解集合全体にわたって確率質量を割り当てることを目的としている。
この目的を達成するには、軌道空間上のプロンプト依存のパーティション関数を計算する必要がある。
既存の分散マッチング手法は、この分割関数をポリシーとともにオンラインで学習するため、分割関数の校正エラーはポリシー更新を直接歪め、独立して診断することは不可能である。
本稿では、DEA(Decoupled Importance-Sampled Anchoring)を略して導入し、このキャリブレーション問題をRLループの外に移動させる。
DISAは提案の軌跡をオフラインに描画し、重要サンプリングによって分割関数を推定し、ポリシー最適化が始まる前に分割関数の推定結果を凍結する。
このデカップリングは、データ、勾配、損失、診断におけるポリシー学習から分割関数推定を厳密に分離しながら、分散マッチングの目的を保っている。
実証的には、6つの数学と3つのコードベンチマークの2つのオープンウェイトバックボーンにおいて、disAはオンラインに結合した分布マッチングベースラインFlowRLと一致または超え、数学平均で報酬最大化ベースラインGRPOとGSPOを上回り、同じオフライン軌道上で最大13.8Mean@8ポイントのLoRASFT蒸留を上回る。
LLM-as-judge の評価により,disA は報酬-最大化ベースラインよりも戦略レベルの多様性を保ち,提案強度と逆温度に対する感度研究は分析によって予測されるバイアス-ばらつきパターンに従っていることが示された。
関連論文リスト
- Relative Score Policy Optimization for Diffusion Language Models [29.344961499429257]
拡散大言語モデル(dLLMs)は、並列かつ効率的なテキスト生成への有望な経路を提供する。
抽出可能なシーケンスレベルのログ比の欠如により、既存の手法は高分散ELBOベースの近似に頼らざるを得なくなった。
textbfRelative textbfScore textbfPolicy textbfOptimization (RSPO)を提案する。
論文 参考訳(メタデータ) (2026-05-11T08:58:40Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training [33.61029387987583]
政策ミラー降下(PMD)は強化学習のための原則的枠組みを提供する
PMD-mean(英語版)と呼ばれる実用的アルゴリズムについて検討し、サンプリングポリシーの下での対数分割項と平均報酬とを近似する。
数学推論タスクの実験により, PMD-meanは安定性と時間効率を向上し, 優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-05T17:44:28Z) - Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity [13.211627219720796]
強化学習(Reinforcement Learning, RL)は、推論に関わる課題を解決するためにLLMをチューニングするためのデファクトスタンダードとなっている。
我々は、RLが暗黙的に「モード探索」あるいは「ゼロ強制」逆KLを目標分布に最適化し、モデルがターゲットの特定の高確率領域に質量を集中させることを論じる。
そこで本研究では,まず,正解の相対確率を無視しながら,不正確な解をフィルタリングして得られる明示的対象分布から始める。
論文 参考訳(メタデータ) (2025-12-05T18:56:40Z) - Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning via Linear-Programming with Error-Bound Induced Constraints [26.008426384903764]
オフライン強化学習(RL)は、事前に収集されたデータセットを使用して、マルコフ決定プロセス(MDP)の最適ポリシーを見つけることを目的としている。
本研究では,オフラインRLにおけるマルコフ決定過程の線形プログラミング (LP) の再検討を行う。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。