論文の概要: Generalized Distributional Alignment Games for Unbiased Answer-Level Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.02435v1
- Date: Mon, 04 May 2026 10:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.238809
- Title: Generalized Distributional Alignment Games for Unbiased Answer-Level Fine-Tuning
- Title(参考訳): アンビシッドアンサーレベルファインチューニングのための一般化分布アライメントゲーム
- Authors: Mehryar Mohri, Jon Schneider, Yutao Zhong,
- Abstract要約: 分散アライメントゲームフレームワークは、Answer-Level Fine-Tuning(ALFT)の強力な変分的視点を提供する
これらのゲームの標準的なアルゴリズムは、小さなバッチから対数報酬を推定することに依存しており、ジェンセンの不等式により訓練を不安定にできる体系的なバイアスが生じる。
我々は、アライメントゲームを任意のブレグマン発散に一般化し、報酬を誘導する幾何の族に対して、証明可能な正確で偏りのない推定器を構築することができることを示す。
- 参考スコア(独自算出の注目度): 49.24876001249647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Distributional Alignment Game framework provides a powerful variational perspective on Answer-Level Fine-Tuning (ALFT). However, standard algorithms for these games rely on estimating logarithmic rewards from small batches, introducing a systematic bias due to Jensen's inequality that can destabilize training. In this paper, we systematically resolve this structural estimation bias. First, we generalize the alignment game to arbitrary Bregman divergences, showing that for a family of geometries inducing polynomial rewards, we can construct provably exact and unbiased estimators using U-statistics. Second, for the canonical KL divergence game where an exact solution is impossible, we derive a globally robust minimax polynomial estimator that is provably optimal, achieving the fundamental statistical error limit of $Θ(1/K^2)$, which we establish via the Ditzian-Totik theorem. Finally, we synthesize these two approaches to propose a novel Variance-Optimal Augmented Polynomial Optimization Program (AQP) Estimator, proving that by systematically reducing variance, our method achieves not only optimal bias but also provably accelerated game convergence, leading to more efficient and stable training with zero online computational overhead.
- Abstract(参考訳): Distributional Alignment Game フレームワークは Answer-Level Fine-Tuning (ALFT) の強力なバリエーションを提供する。
しかし、これらのゲームの標準的なアルゴリズムは、小さなバッチから対数報酬を推定することに依存しており、ジェンセンの不等式により訓練を不安定にできる体系的なバイアスが生じる。
本稿では,この構造的推定バイアスを系統的に解決する。
まず、アライメントゲームを任意のブレグマン発散に一般化し、多項式報酬を誘導する幾何群に対して、U-統計量を用いて証明可能な正確で偏りのない推定器を構築することができることを示す。
第二に、正確な解が不可能な正規KL発散ゲームに対しては、証明可能な最適性を持つ大域的に頑健なミニマックス多項式推定器を導出し、Ditzian-Totik定理を通じて確立した基本的な統計誤差極限を$1/K^2)$とする。
最後に, この2つの手法を合成し, 分散を体系的に低減することにより, 最適バイアスだけでなく, ゲーム収束の促進も達成し, オンライン計算オーバーヘッドをゼロにすることで, より効率的で安定したトレーニングを実現することを証明した。
関連論文リスト
- Provably Adaptive Linear Approximation for the Shapley Value and Beyond [73.0940890296463]
基本的で長期にわたる課題は、その効率的な近似である。
一般に用いられるすべての半値に対して$P(|hatboldsymbol-boldsymbol|_2geq)leq$を必要とする線形空間アルゴリズムを開発する。
本アルゴリズムは,各ユーティリティ関数の平均二乗誤差の明示的最小化を可能にする。
論文 参考訳(メタデータ) (2026-04-09T16:38:14Z) - Unbiased and Biased Variance-Reduced Forward-Reflected-Backward Splitting Methods for Stochastic Composite Inclusions [3.6997773420183866]
本研究では,フォワード反射逆スプリッティング法(FRBS)のための新しい分散還元法を開発した。
ミニバッチのような偏見のない推定器とは異なり、偏見のある変種の開発は基本的な技術的課題に直面している。
ループレスSVRGやSAGAを利用する場合,$mathcalO(n2/3-2)$と$mathcalO(-10/3)$が最良であることを示す。
論文 参考訳(メタデータ) (2026-03-16T17:39:25Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - Distributed Sparse Regression via Penalization [5.990069843501885]
エージェントのネットワーク上の線形回帰を、(集中ノードを持たない)無向グラフとしてモデル化する。
推定問題は、局所的なLASSO損失関数の和とコンセンサス制約の2次ペナルティの最小化として定式化される。
本稿では, ペナル化問題に適用した近似勾配アルゴリズムが, 集中的な統計的誤差の順序の許容値まで線形に収束することを示す。
論文 参考訳(メタデータ) (2021-11-12T01:51:50Z) - Outlier-Robust Optimal Transport: Duality, Structure, and Statistical
Applications [25.410110072480187]
ワッサーシュタイン距離は、考慮された分布における外れ値に敏感である。
本稿では, 汚染された各分布から, $varepsilon$outlier mass を除去できる新しいoutlier-robust Wasserstein distance $mathsfW_pvarepsilon$を提案する。
論文 参考訳(メタデータ) (2021-11-02T04:05:45Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。