論文の概要: Autoregressive Learning in Joint KL: Sharp Oracle Bounds and Lower Bounds
- arxiv url: http://arxiv.org/abs/2605.12316v1
- Date: Tue, 12 May 2026 16:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.993121
- Title: Autoregressive Learning in Joint KL: Sharp Oracle Bounds and Lower Bounds
- Title(参考訳): 共同 KL における自己回帰学習 - Sharp Oracle 境界と低境界
- Authors: Yunbei Xu, Yuzhe Yuan, Ruohan Zhan,
- Abstract要約: 本研究では, 自己回帰モデルにおける長周期学習の基本的かつタイムリーな問題と, モデル不特定の下での次トーケン予測について検討する。
我々のゴールは、シーケンス水平線(H)が、この共同分布、シーケンスレベル状態における近似と推定誤差の両方にどのように影響するかを特徴づけることである。
- 参考スコア(独自算出の注目度): 8.164687789644365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the fundamental and timely problem of learning long sequences in autoregressive modeling and next-token prediction under model misspecification, measured by the joint Kullback--Leibler (KL) divergence. Our goal is to characterize how the sequence horizon \(H\) affects both approximation and estimation errors in this joint-distribution, sequence-level regime. By establishing matching upper and lower bounds, we provide, to our knowledge, the first complete characterization of long-horizon error behavior under the natural joint KL objective, with improved rates and optimality justification relative to existing work. On the approximation side, we show that joint KL admits a horizon-free approximation factor, in sharp contrast to Hellinger-based analyses that exhibit an \(Ω(H)\) dependence for computationally efficient methods; this isolates the choice of divergence as the source of approximation amplification. On the estimation side, we prove a fundamental information-theoretic lower bound of order \(Ω(H)\) that holds for both decomposable policy classes and fully shared policies, matching the \(\widetilde O(H)\) upper bounds achieved by computationally efficient algorithms. Our analysis clarifies the landscape of recent autoregressive learning results by aligning the log-loss training objective, the sequence-level evaluation metric, and the approximation metric {\color{black}through a sharp joint-KL oracle theory}. We further show that these joint-KL guarantees imply policy learning regret bounds at rates matching prior imitation learning literature.
- Abstract(参考訳): 自己回帰モデルと次トーケン予測における長周期学習の基本的かつタイムリーな問題について,KL(Kullback-Leibler)差分法を用いて検討した。
我々のゴールは、シーケンス水平線 \(H\) が、この共同分布、シーケンスレベル状態における近似と推定誤差の両方にどのように影響するかを特徴づけることである。
上と下の境界を一致させることにより、我々は、自然関節KLの目的の下での長い水平誤差の挙動を、既存の作業と比較して改善された率と最適正当性により、初めて完全に特徴づける。
近似側では、計算効率のよい方法に対して \(Ω(H)\) 依存を示す Hellinger に基づく解析とは対照的に、結合 KL が水平自由近似因子を許容していることを示し、近似増幅の源として発散の選択を分離する。
推定側では、計算効率のよいアルゴリズムによって達成された \(\widetilde O(H)\) 上の境界に一致するように、分解可能なポリシークラスと完全に共有されたポリシーの両方を保った順序 \(Ω(H)\) の基本的な情報理論的下界を証明している。
本分析は, シャープジョイントKLオラクル理論を用いて, ログロス学習目標, シーケンスレベル評価指標, 近似指標 {\color{black} を整列することにより, 最近の自己回帰学習の展望を明らかにする。
さらに、これらの共同KLは、事前の模倣学習文献と一致するレートで、政策学習後悔境界を暗示することを保証していることを示す。
関連論文リスト
- Bridging the Gap Between Average and Discounted TD Learning [14.556544278062793]
平均回帰設定において,政策評価のために明示的に設計された新しいアルゴリズムを提案する。
提案手法は, 適切に定義されたベルマン方程式の一意解への収束を保証することによって, 従来の限界を克服する。
論文 参考訳(メタデータ) (2026-05-03T23:54:36Z) - On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - On Volume Minimization in Conformal Regression [8.673942897414934]
分割共形回帰における体積最適性の問題について検討する。
まず、古典分割法により返される区間の余剰体積損失に基づいて、有限サンプル上界を導出する。
EffOrtは学習ステップを変更する手法で、基本予測関数が選択され、返却間隔の長さを最小化する。
論文 参考訳(メタデータ) (2025-02-14T08:14:22Z) - Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Horizon-Free and Instance-Dependent Regret Bounds for Reinforcement
Learning with General Function Approximation [26.277745106128197]
一般関数近似を用いた強化学習における長期計画地平線問題に対処するアルゴリズムを提案する。
導出残差は、線形混合MDPを対数因子まで特殊化する場合のミニマックス下限と一致するため、エンフシャープと見なされる。
このような地平線に依存しない、インスタンスに依存しない、鋭い後悔に満ちたヒンジの達成は、(i)新しいアルゴリズム設計と(ii)きめ細かい解析に基づいている。
論文 参考訳(メタデータ) (2023-12-07T17:35:34Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Fine-grained analysis of non-parametric estimation for pairwise learning [9.676007573960383]
ペアワイズ学習における非パラメトリック推定の一般化性能について検討する。
我々の結果は、ランキング、AUC、ペアワイズ回帰、メートル法、類似性学習など、幅広いペアワイズ学習問題に対処するために利用できる。
論文 参考訳(メタデータ) (2023-05-31T08:13:14Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。