論文の概要: Adaptive Decoding via Test-Time Policy Learning for Self-Improving Generation
- arxiv url: http://arxiv.org/abs/2603.18428v1
- Date: Thu, 19 Mar 2026 02:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.92618
- Title: Adaptive Decoding via Test-Time Policy Learning for Self-Improving Generation
- Title(参考訳): 自己改善生成のためのテスト時間ポリシー学習による適応デコーディング
- Authors: Asmita Bhardwaj, Yuya Jeremy Ong, Eelaaf Zahid, Basel Shbita,
- Abstract要約: 本稿では,復号化を逐次決定として扱う強化学習型サンプルシステムを導入し,テスト時にサンプリングパラメータを調整するための軽量なポリシーを学習する。
本研究は,BookSum,arXiv,WikiHowなどの要約データセットを評価する。
- 参考スコア(独自算出の注目度): 0.5199807441687141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding strategies largely determine the quality of Large Language Model (LLM) outputs, yet widely used heuristics such as greedy or fixed temperature/top-p decoding are static and often task-agnostic, leading to suboptimal or inconsistent generation quality across domains that demand stylistic or structural flexibility. We introduce a reinforcement learning-based decoder sampler that treats decoding as sequential decision-making and learns a lightweight policy to adjust sampling parameters at test-time while keeping LLM weights frozen. We evaluated summarization datasets including BookSum, arXiv, and WikiHow using Granite-3.3-2B and Qwen-2.5-0.5B. Our policy sampler consistently outperforms greedy and static baselines, achieving relative gains of up to +88% (BookSum, Granite) and +79% (WikiHow, Qwen). Reward ablations show that overlap-only objectives underperform compared to composite rewards, while structured shaping terms (length, coverage, repetition, completeness) enable stable and sustained improvements. These findings highlight reinforcement learning as a practical mechanism for test-time adaptation in decoding, enabling domain-aware and user-controllable generation without retraining large models.
- Abstract(参考訳): デコード戦略は主にLLM(Large Language Model)の出力の品質を決定するが、グリードや固定温度/トップpのデコードのようなヒューリスティックな手法は静的であり、しばしばタスクに依存しない。
我々は,復号化を逐次決定として扱う強化学習に基づく復号器サンプルを導入し,LCM重みを凍結したまま試験時間にサンプリングパラメータを調整するための軽量なポリシーを学習する。
我々は、Granite-3.3-2BとQwen-2.5-0.5Bを用いて、BookSum、arXiv、WikiHowなどの要約データセットを評価した。
私たちのポリシーサンプリングは、つねに、欲求と静的なベースラインを上回り、+88%(BookSum、Granite)と+79%(WikiHow、Qwen)の相対的な利益を達成しています。
Reward ablations では、オーバーラップのみの目的は複合報酬に比べてパフォーマンスが低く、構造化された整形語(長さ、カバレッジ、繰り返し、完全性)は安定した改善と持続的な改善を可能にしている。
これらの知見は、デコードにおけるテスト時間適応の実践的なメカニズムとして強化学習を強調し、大規模なモデルを再訓練することなくドメイン認識およびユーザ制御可能な生成を可能にする。
関連論文リスト
- Baguan-TS: A Sequence-Native In-Context Learning Model for Time Series Forecasting with Covariates [31.296823831987748]
Baguan-TSは、3Dトランスフォーマーによってインスタンス化されるICLと生系列表現学習を統合している。
i) キャリブレーションとトレーニング安定性, 特徴に依存しない目標空間検索に基づく局所キャリブレーション, および (ii) コンテクストオーバーフィッティング戦略によって緩和された出力過スムージングの2つの主要なハードルに対処する。
論文 参考訳(メタデータ) (2026-03-18T07:24:19Z) - VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL [38.782188833641676]
GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。
グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。
textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T08:59:54Z) - PointMAC: Meta-Learned Adaptation for Robust Test-Time Point Cloud Completion [16.852116353523257]
ポイントクラウドの完成は、ロボティクスや拡張現実といった安全クリティカルなアプリケーションにおいて、堅牢な3D認識に不可欠である。
既存のモデルは静的推論を行い、トレーニング中に学んだ帰納バイアスに大きく依存する。
我々は,ポイントクラウド完了時の堅牢なテスト時間適応のためのメタ学習フレームワークであるPointMACを提案する。
論文 参考訳(メタデータ) (2025-10-11T23:13:17Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。
当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。
モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文 参考訳(メタデータ) (2025-08-04T08:28:25Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Latent Template Induction with Gumbel-CRFs [107.17408593510372]
文生成のための潜在テンプレートを推論するための構造化変分オートエンコーダについて検討する。
構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習することを示す。
論文 参考訳(メタデータ) (2020-11-29T01:00:57Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。