Fugu-MT 論文翻訳(概要): Tail-Aware Information-Theoretic Generalization for RLHF and SGLD

論文の概要: Tail-Aware Information-Theoretic Generalization for RLHF and SGLD

arxiv url: http://arxiv.org/abs/2604.10727v1
Date: Sun, 12 Apr 2026 17:00:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.190381
Title: Tail-Aware Information-Theoretic Generalization for RLHF and SGLD
Title（参考訳）: RLHFとSGLDのためのテール認識情報理論の一般化
Authors: Huiming Zhang, Binghan Li, Wan Tian, Qiang Sun,
Abstract要約: Weibullデータに対するテール依存型情報理論フレームワークを開発した。私たちの重要な技術的要素は、シフトlogf_$-divergenceを使って変化の期待を束縛するデレンマです。これらのツールは、期待され高確率なPAC-Bayes一般化境界と、多スケールレニイ相互情報に基づく情報理論チェインの不等式をもたらす。
参考スコア（独自算出の注目度）: 5.199823655866073
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Classical information-theoretic generalization bounds typically control the generalization gap through KL-based mutual information and therefore rely on boundedness or sub-Gaussian tails via the moment generating function (MGF). In many modern pipelines, such as robust learning, RLHF, and stochastic optimization, losses and rewards can be heavy-tailed, and MGFs may not exist, rendering KL-based tools ineffective. We develop a tail-dependent information-theoretic framework for sub-Weibull data, where the tail parameter $θ$ controls the tail heaviness: $θ=2$ corresponds to sub-Gaussian, $θ=1$ to sub-exponential, and $0<θ<1$ to genuinely heavy tails. Our key technical ingredient is a decorrelation lemma that bounds change-of-measure expectations using a shifted-log $f_θ$-divergence, which admits explicit comparisons to Rényi divergence without MGF arguments. On the empirical-process side, we establish sharp maximal inequalities and a Dudley-type chaining bound for sub-Weibull processes with tail index $θ$, with complexity scaling as $\log^{1/θ}$ and entropy$^{1/θ}$. These tools yield expected and high-probability PAC-Bayes generalization bounds, as well as an information-theoretic chaining inequality based on multiscale Rényi mutual information. We illustrate the consequences in Rényi-regularized RLHF under heavy-tailed rewards and in stochastic gradient Langevin dynamics with heavy-tailed gradient noise.
Abstract（参考訳）: 古典的な情報理論の一般化境界は、典型的にはKLに基づく相互情報を通して一般化ギャップを制御し、従ってモーメント生成関数(MGF)を介して有界性または準ガウステールに依存する。堅牢な学習、RLHF、確率的最適化などの多くの現代のパイプラインでは、損失と報酬は重く、MGFは存在せず、KLベースのツールが有効ではない。我々は,サブワイブルデータに対するテール依存情報理論フレームワークを開発し,テールパラメータ$θ$がテール重みを制御する:$θ=2$はサブガウス,$θ=1$はサブ指数,$0<θ<1$は真に重いテールに対応する。我々の主要な技術要素は、シフトログ $f_θ$-divergence を用いて測度の変化期待を束縛するデコリレーション補題であり、これは MGF の引数なしで Rényi の発散と明示的な比較を許容するものである。経験過程側では、急激な極大不等式と、末尾指数$θ$を持つ準ワイブル過程に対してダドリー型連鎖が成立し、複雑性のスケーリングは$\log^{1/θ}$とentropy$^{1/θ}$となる。これらのツールは、期待され高確率なPAC-Bayes一般化境界と、多スケールレニイ相互情報に基づく情報理論チェインの不等式をもたらす。重み付き報酬の下でのレニイ規則化RLHFと重み付き勾配雑音を伴う確率勾配ランゲヴィン力学における結果について述べる。

関連論文リスト

Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret [71.69884486156359]
我々は, 累積的不完全化予算を用いて, エンフルティソースの不完全性選好からエピソードRLを考察した。我々は,最良な登録行動を示す,後悔$tildeO(sqrtK/M+)$の統一アルゴリズムを提案する。
論文参考訳（メタデータ） (2026-03-20T19:34:53Z)
Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文参考訳（メタデータ） (2026-02-26T15:27:53Z)
Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文参考訳（メタデータ） (2026-02-24T05:32:03Z)
Why is Normalization Preferred? A Worst-Case Complexity Theory for Stochastically Preconditioned SGD under Heavy-Tailed Noise [17.899443444882888]
不等式事前条件勾配降下(SPSGD)に対する最悪のケース複雑性理論を開発する。正規化は問題パラメータが未知の場合には$mathcalO(T-fracp-13p-2)$,$mathcalO(T-fracp-12p)$で1次定常点への収束を保証する。対照的に、プリコンディショナーと勾配推定との統計的依存により、クリッピングが最悪の場合に収束しないことが証明される。
論文参考訳（メタデータ） (2026-02-13T19:29:17Z)
Tight Generalization Error Bounds for Stochastic Gradient Descent in Non-convex Learning [1.8136828360307795]
本研究では、ディープネットワークにおける非有界データを保証するために、より厳密な項を確立するために、グラディエント・Descent(SGD)を使用できることを示す。 MNISTARはトレーニングおよび神経訓練におけるT2pm-SGDの有効性を示す。
論文参考訳（メタデータ） (2025-06-23T13:47:25Z)
Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文参考訳（メタデータ） (2024-11-12T11:30:53Z)
Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文参考訳（メタデータ） (2024-04-29T15:04:07Z)
Heavy-Tail Phenomenon in Decentralized SGD [33.63000461985398]
分散勾配降下(DE-SGD)における重鎖の出現について検討する。また,分権化が尾の挙動に及ぼす影響についても検討した。我々の理論は、テールとネットワーク構造の間の興味深い相互作用を明らかにする。
論文参考訳（メタデータ） (2022-05-13T14:47:04Z)
Convergence Rates of Stochastic Gradient Descent under Infinite Noise Variance [14.06947898164194]
ヘビーテールは様々なシナリオで勾配降下 (sgd) で現れる。 SGDの収束保証は、潜在的に無限のばらつきを持つ状態依存性および重尾ノイズ下で提供します。その結果,SGDは無限に分散した重尾雑音下であっても,地球最適値に収束できることが示された。
論文参考訳（メタデータ） (2021-02-20T13:45:11Z)
The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文参考訳（メタデータ） (2020-06-08T16:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。