論文の概要: Asymptotic Universal Alignment: A New Alignment Framework via Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2601.08777v1
- Date: Tue, 13 Jan 2026 18:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.32146
- Title: Asymptotic Universal Alignment: A New Alignment Framework via Test-Time Scaling
- Title(参考訳): 漸近的ユニバーサルアライメント:テストタイムスケーリングによる新しいアライメントフレームワーク
- Authors: Yang Cai, Weiqiang Zheng,
- Abstract要約: テスト時間スケーリングによる普遍的アライメントの理想的概念を定式化する。
人間のフィードバックからナッシュ学習を含む一般的なポストトレーニング手法は、テスト時間スケーリングの利点を損なう可能性があることを示す。
- 参考スコア(独自算出の注目度): 14.939480324139288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) to serve users with heterogeneous and potentially conflicting preferences is a central challenge for personalized and trustworthy AI. We formalize an ideal notion of universal alignment through test-time scaling: for each prompt, the model produces $k\ge 1$ candidate responses and a user selects their preferred one. We introduce $(k,f(k))$-robust alignment, which requires the $k$-output model to have win rate $f(k)$ against any other single-output model, and asymptotic universal alignment (U-alignment), which requires $f(k)\to 1$ as $k\to\infty$. Our main result characterizes the optimal convergence rate: there exists a family of single-output policies whose $k$-sample product policies achieve U-alignment at rate $f(k)=\frac{k}{k+1}$, and no method can achieve a faster rate in general. We show that popular post-training methods, including Nash learning from human feedback (NLHF), can fundamentally underutilize the benefits of test-time scaling. Even though NLHF is optimal for $k=1$, sampling from the resulting (often deterministic) policy cannot guarantee win rates above $\tfrac{1}{2}$ except for an arbitrarily small slack. This stems from a lack of output diversity: existing alignment methods can collapse to a single majority-preferred response, making additional samples redundant. In contrast, our approach preserves output diversity and achieves the optimal test-time scaling rate. In particular, we propose a family of symmetric multi-player alignment games and prove that any symmetric Nash equilibrium policy of the $(k+1)$-player alignment game achieves the optimal $(k,\frac{k}{k+1})$-robust alignment. Finally, we provide theoretical convergence guarantees for self-play learning dynamics in these games and extend the framework to opponents that also generate multiple responses.
- Abstract(参考訳): 大きな言語モデル(LLM)を、不均一で潜在的に矛盾する好みを持つユーザに提供することは、パーソナライズされ信頼性の高いAIにとって重要な課題である。
テスト時間スケーリングにより、理想的なアライメントの概念を定式化します。各プロンプトに対して、モデルが$k\ge 1$ candidate responseを生成し、ユーザが好みのものを選択します。
我々は、$(k,f(k))$-robustアライメントを導入し、これは、$k$アウトプットモデルが、他の任意の単一出力モデルに対して$f(k)$の勝利率と、$f(k)\to 1$ as $k\to\infty$の漸近普遍アライメント(U-アライメント)を持つことを要求する。
我々の主な成果は最適収束率を特徴づける:$k$sampleの製品ポリシーが$f(k) =frac{k}{k+1}$でUアライメントを達成するような単一出力ポリシーの族が存在し、一般により速いレートを達成する方法は存在しない。
ヒューマンフィードバック(NLHF)からのナッシュ学習を含む一般的なポストトレーニング手法は、テスト時間スケーリングの利点を根本的に損なう可能性があることを示す。
NLHF は$k=1$ に最適であるが、結果として得られる(しばしば決定論的な)ポリシーからのサンプリングは、任意に小さなスラックを除いて$\tfrac{1}{2}$ 以上の勝利率を保証することはできない。
これは出力の多様性の欠如に起因している。既存のアライメントメソッドは1つの多数派が優先する応答に崩壊し、追加のサンプルを冗長にする。
対照的に、本手法は出力の多様性を保ち、最適なテスト時間スケーリング率を達成する。
特に、対称多人数アライメントゲーム群を提案し、$(k+1)$-playerアライメントゲームの対称ナッシュ均衡ポリシーが最適な$(k,\frac{k}{k+1})$-robustアライメントを達成することを証明した。
最後に,これらのゲームにおける自己学習力学の理論的収束を保証するとともに,複数の応答を生成する相手にフレームワークを拡張する。
関連論文リスト
- Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias [0.0]
パラメータノルムの族をスケールするために、統一的で高確率な特徴を与える。
次に、降下によって訓練された線形ネットワークについて研究する。
論文 参考訳(メタデータ) (2025-09-25T13:59:22Z) - Accelerating Nash Learning from Human Feedback via Mirror Prox [36.04055906691423]
オンラインNLHFアルゴリズムであるNash Mirror Prox(mathtNash-MP$)を導入する。
我々の理論的解析により、ナッシュ-MPは、$beta$-regularized Nash平衡に対して、最終点の線形収束を示すことが証明された。
また,Nash-MPは,利用可能性ギャップと対数確率の半ノルムの均一性に対して,最終等級の線形収束を示すことを示した。
論文 参考訳(メタデータ) (2025-05-26T09:17:32Z) - Provable Scaling Laws for the Test-Time Compute of Large Language Models [84.00141420901038]
本研究では,大規模言語モデルのテスト時間計算において,証明可能なスケーリング法則を享受する2つのアルゴリズムを提案する。
1つは2段階ノックアウト方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。
もう1つは2段階のリーグ方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。
論文 参考訳(メタデータ) (2024-11-29T05:29:47Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
そこで本研究では,KLの発散に対する新しい推定器を提案し,その近似が厳密であることを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Federated Learning in the Presence of Adversarial Client Unavailability [16.201377650598516]
フェデレートラーニング(Federated Learning)は、生データを公開せずにコラボレーティブモデルを可能にする、分散機械学習フレームワークである。
多様なハードウェアソフトウェアに制限があるため、クライアントはサーバからの計算要求に対して常に利用できるとは限らない。
戦場のような厳しい環境では、敵は特定のクライアントを選択的に黙らせることができる。
論文 参考訳(メタデータ) (2023-05-31T15:57:07Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。