論文の概要: Safe, Efficient, and Robust Reinforcement Learning for Ranking and Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.15429v1
- Date: Fri, 17 Oct 2025 08:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.538535
- Title: Safe, Efficient, and Robust Reinforcement Learning for Ranking and Diffusion Models
- Title(参考訳): ランク付けと拡散モデルのための安全・効率的・ロバスト強化学習
- Authors: Shashank Gupta,
- Abstract要約: 論文は、強化学習手法が安全で、サンプル効率が高く、堅牢であるようにどのように設計できるかを調査する。
コンテキスト帯域RLの統一的な視点から判断されたこの作業は、ランキングとレコメンデーション、テキストから画像への拡散モデルという2つの主要なアプリケーション領域に対処する。
- 参考スコア(独自算出の注目度): 2.231476498067998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This dissertation investigates how reinforcement learning (RL) methods can be designed to be safe, sample-efficient, and robust. Framed through the unifying perspective of contextual-bandit RL, the work addresses two major application domains - ranking and recommendation, and text-to-image diffusion models. The first part of the thesis develops theory and algorithms for safe deployment in ranking systems. An exposure-based generalisation bound is derived, leading to a counterfactual risk-minimisation objective whose solution is guaranteed not to underperform the logging policy, even with sparse feedback. This guarantee is extended to doubly robust estimators, enabling safety even under adversarial or misspecified user models and offering practitioners explicit control over permissible utility loss. The second part turns to single-action bandits, where various off-policy estimators are unified within a baseline-correction framework. A closed-form optimal baseline is proposed and shown to minimise both evaluation and policy-gradient variance, thereby improving off-policy learning reliability. The final part examines the trade-offs between efficiency and effectiveness in generative RL. A systematic study of PPO and REINFORCE motivates the Leave-One-Out PPO (LOOP) algorithm, which combines multiple diffusion trajectories with a REINFORCE-style baseline inside PPO's clipped objective. LOOP achieves PPO-level sample efficiency while producing generations that align more faithfully with textual attributes.
- Abstract(参考訳): この論文は、強化学習(RL)手法がいかに安全で、サンプル効率が高く、堅牢であるかを考察する。
コンテキスト帯域RLの統一的な視点から判断されたこの作業は、ランキングとレコメンデーション、テキストから画像への拡散モデルという2つの主要なアプリケーション領域に対処する。
論文の第1部では、ランキングシステムに安全な配置を行うための理論とアルゴリズムが開発されている。
露光に基づく一般化バウンダリが導出され、スパースフィードバックを伴っても、そのソリューションがロギングポリシーを過小評価しないことを保証する、事実上のリスク最小化目標が導出される。
この保証は、二重に堅牢な推定器に拡張され、敵対的または不特定なユーザーモデルの下でも安全を可能にし、実行者が許容可能なユーティリティ損失を明示的に制御できるようにする。
第2部では、さまざまなオフポリティクス推定器をベースライン補正フレームワークに統一するシングルアクション・バンドイットに転換する。
クローズドフォームの最適ベースラインを提案し,評価と政策段階のばらつきを最小化することにより,非政治学習の信頼性を向上することを示した。
最終部では, 生成RLの効率性と有効性のトレードオフについて検討する。
PPOとREINFORCEの体系的研究は、複数の拡散軌跡とREINFORCEスタイルのベースラインを組み合わせたLOOPアルゴリズムを動機付けている。
LOOPはPPOレベルのサンプル効率を実現し、テキスト属性をより忠実に整合させる世代を生成します。
関連論文リスト
- Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning [8.087699764574788]
オフライン優先型強化学習(PbRL)のための効率的なアルゴリズムを提案する。
APPOは、明示的な信頼セットに頼ることなく、サンプルの複雑性境界を保証する。
我々の知る限り、APPOは統計的効率と実用性の両方を提供する最初のオフラインPbRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-07T10:35:01Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。