論文の概要: Oracle-Robust Online Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.20457v1
- Date: Tue, 24 Feb 2026 01:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.56872
- Title: Oracle-Robust Online Alignment for Large Language Models
- Title(参考訳): 大規模言語モデルのためのOracle-Robustオンラインアライメント
- Authors: Zimeng Li, Mudit Gaur, Vaneet Aggarwal,
- Abstract要約: 本研究では,大規模言語モデルのオンラインアライメントについて,不特定な選好フィードバックの下で検討する。
本稿では,この問題におけるポイントワイズなオラクルの不確実性を導入し,オラクル・ロバストなオンラインアライメントの目的を定式化する。
対数線形ポリシーでは、この頑健な目的が元の損失関数への正確な閉形式分解と明示的な感度のペナルティを許容していることが示される。
- 参考スコア(独自算出の注目度): 47.93998073262631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online alignment of large language models under misspecified preference feedback, where the observed preference oracle deviates from an ideal but unknown ground-truth oracle. The online LLM alignment problem is a bi-level reinforcement problem due to the coupling between data collection and policy updates. Recently, the problem has been reduced to tractable single-level objective in the SAIL (Self-Improving Efficient Online Alignment) framework. In this paper, we introduce a pointwise oracle uncertainty set in this problem and formulate an oracle-robust online alignment objective as a worst-case optimization problem. For log-linear policies, we show that this robust objective admits an exact closed-form decomposition into the original loss function plus an explicit sensitivity penalty. We develop projected stochastic composite updates for the resulting weakly convex objective and prove $\widetilde{O}(\varepsilon^{-2})$ oracle complexity for reaching approximate stationarity.
- Abstract(参考訳): 本研究では,大規模言語モデルのオンラインアライメントを,不特定な選好フィードバックの下で研究し,観察された選好オラクルは理想的だが未知の地道オラクルから逸脱することを示した。
オンラインLCMアライメント問題は、データ収集とポリシー更新の結合による二段階強化問題である。
近年,SAIL(Self-Improving Efficient Online Alignment)フレームワークにおいて,この問題は単一レベルの抽出可能な目標に縮小されている。
本稿では,本問題におけるポイントワイドなオラクルの不確実性を導入し,最悪ケース最適化問題として,オラクル・ロバストなオンラインアライメントの目標を定式化する。
対数線形ポリシーでは、この頑健な目的が元の損失関数への正確な閉形式分解と明示的な感度のペナルティを許容していることが示される。
本研究は, 弱凸対象に対する確率的複合更新法を開発し, 近似定常性に到達するために, $\widetilde{O}(\varepsilon^{-2})$ Oracle complexityを証明した。
関連論文リスト
- Learning-augmented smooth integer programs with PAC-learnable oracles [6.4126799144358975]
予測オラクルを組み込んだフレームワークを導入し、目的の線形サロゲートを構築し、線形プログラミングによって解決する。
提案手法は,古典的な高密度政権から近距離政権へ効果的にトラクタブル近似を拡張できることを実証する。
帰納的アルゴリズムが有界擬似次元を持つことを証明し、ほぼ最適性能のオラクルを学習できるようにする。
論文 参考訳(メタデータ) (2026-01-22T05:55:36Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Riemannian Projection-free Online Learning [5.918057694291832]
プロジェクション操作は、オンライン勾配降下(OGD)のような最適化アルゴリズムにおける重要な要素である。
これは高次元の設定における計算上の制限や、不条件の制約セットを扱う際に悩まされる。
本稿では,曲面空間上でのオンライン測地線凸最適化において,線形後悔の保証を得る手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T18:22:09Z) - Adaptive Oracle-Efficient Online Learning [23.185655992407742]
オラクル効率のアルゴリズムは指数関数的に大きい決定空間を探索し、どのデータセットでも最善を尽くしたかを選択する。
我々は、オラクル効率が良く、小さな環境に順応する、後続のリーダーアルゴリズムを設計するための新しいフレームワークを提供する。
我々は、オンラインオークションや、近似可能性を保持するトランスダクティブオンライン分類を含む、現実世界の一連の設定を識別する。
論文 参考訳(メタデータ) (2022-10-17T19:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。