論文の概要: The Role of Generator Access in Autoregressive Post-Training
- arxiv url: http://arxiv.org/abs/2604.04855v1
- Date: Mon, 06 Apr 2026 16:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.296331
- Title: The Role of Generator Access in Autoregressive Post-Training
- Title(参考訳): 自己回帰後訓練における発電機アクセスの役割
- Authors: Amit Kiran Rege,
- Abstract要約: 本研究では,ジェネレータアクセスが自己回帰後学習にどのように制約するかを検討する。
ルートスタート方式では、出力サンプリング、生成トーケンログ確率、トップ$k$レポート、全次トーケン分布は、すべて1つの標準実験に還元される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how generator access constrains autoregressive post-training. The central question is whether the learner is confined to fresh root-start rollouts or can return to previously built prefixes and query the next-token rule there. In the root-start regime, output sampling, generated-token log probabilities, top-$k$ reports, and full next-token distributions along sampled trajectories all reduce to one canonical experiment, limited by the on-policy probability of reaching informative prefixes. Weak prefix control breaks this barrier, and once control is available, richer observations such as conditional sampling or logits can outperform top-$1$ access. Changing only the generator interface creates an exponential gap for KL-regularized outcome-reward post-training.
- Abstract(参考訳): 本研究では,ジェネレータアクセスが自己回帰後学習にどのように制約するかを検討する。
中心的な問題は、学習者が新しいルートスタートロールアウトに制限されているか、あるいは以前に構築されたプレフィックスに戻り、そこで次のトークンルールをクエリできるかどうかである。
ルートスタート方式では、出力サンプリング、生成トーケンログ確率、トップ$k$レポート、およびサンプル軌跡に沿った全次トーケン分布は、情報的接頭辞に到達するための政治上の確率によって制限され、1つの標準実験に還元される。
弱プレフィックス制御はこの障壁を破り、制御が利用可能になったら、条件付きサンプリングやロジットなどのリッチな観測が1ドル以上のアクセスを上回ります。
ジェネレータインタフェースのみを変更することで、KL正規化結果逆トレーニングの指数的ギャップが生成される。
関連論文リスト
- From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。
その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文 参考訳(メタデータ) (2025-12-21T08:10:26Z) - Text Generation Beyond Discrete Token Sampling [74.06071135207635]
入力の混合(Mixture of Inputs, MoI)は、自動回帰生成のためのトレーニング不要な方法である。
MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルのパフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-20T18:41:46Z) - RS-Reg: Probabilistic and Robust Certified Regression Through Randomized Smoothing [19.03441416869426]
我々は $ell$ norm を用いて入力データポイント上の上限を設定する方法を示す。
次に、出力が有界な回帰モデルの族を扱う際に、摂動入力の認証された上限を導出する。
シミュレーションにより, 理論結果の有効性を検証し, 単純な平滑化関数の利点と限界を明らかにする。
論文 参考訳(メタデータ) (2024-05-14T18:10:46Z) - Learning Control by Iterative Inversion [21.127717602247454]
本稿では,入力-出力対を持たない逆関数を学習するアルゴリズムを提案する。
反復的逆転は、関数のかなり厳密な条件下で、学習を正しく行うことができることを証明している。
報酬に基づく手法と比較して,多様な動作を模倣する性能が向上したことを報告した。
論文 参考訳(メタデータ) (2022-11-03T11:25:55Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。