Fugu-MT 論文翻訳(概要): PARL: A Unified Framework for Policy Alignment in Reinforcement Learning

論文の概要: PARL: A Unified Framework for Policy Alignment in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2308.02585v2
Date: Sun, 8 Oct 2023 04:28:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 05:01:31.709477
Title: PARL: A Unified Framework for Policy Alignment in Reinforcement Learning
Title（参考訳）: PARL:強化学習における政策整合のための統一フレームワーク
Authors: Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Dinesh Manocha, Huazheng Wang, Mengdi Wang, and Furong Huang
Abstract要約: 我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。その結果,提案したtextsfPARL が RL におけるアライメントの懸念に対処できる可能性が示唆された。
参考スコア（独自算出の注目度）: 106.63518036538163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel unified bilevel optimization-based framework, \textsf{PARL}, formulated to address the recently highlighted critical issue of policy alignment in reinforcement learning using utility or preference-based feedback. We identify a major gap within current algorithmic designs for solving policy alignment due to a lack of precise characterization of the dependence of the alignment objective on the data generated by policy trajectories. This shortfall contributes to the sub-optimal performance observed in contemporary algorithms. Our framework addressed these concerns by explicitly parameterizing the distribution of the upper alignment objective (reward design) by the lower optimal variable (optimal policy for the designed reward). Interestingly, from an optimization perspective, our formulation leads to a new class of stochastic bilevel problems where the stochasticity at the upper objective depends upon the lower-level variable. To demonstrate the efficacy of our formulation in resolving alignment issues in RL, we devised an algorithm named \textsf{A-PARL} to solve PARL problem, establishing sample complexity bounds of order $\mathcal{O}(1/T)$. Our empirical results substantiate that the proposed \textsf{PARL} can address the alignment concerns in RL by showing significant improvements (up to 63\% in terms of required samples) for policy alignment in large-scale environments of the Deepmind control suite and Meta world tasks.
Abstract（参考訳）: 本稿では,最近強調された強化学習におけるポリシーアライメントの問題に対処するために,実用性や嗜好に基づくフィードバックを用いた新しい統合二段階最適化フレームワーク \textsf{parl} を提案する。政策トラジェクトリによって生成されたデータに対するアライメント目標の依存性の正確な特徴が欠如しているため、政策アライメントを解決するための現在のアルゴリズム設計における大きなギャップを同定する。この欠点は、現代アルゴリズムで観測される準最適性能に寄与する。提案手法は,上位アライメント目標(後方設計)の分布を下位最適変数(設計報酬の最適方針)によって明示的にパラメータ化することにより,これらの懸念に対処した。興味深いことに、最適化の観点から、我々の定式化は、上位の目的の確率性が下位の変数に依存するような、新しい確率的二段階問題をもたらす。 RLにおけるアライメント問題の解法における定式化の有効性を示すために, PARL問題を解くアルゴリズムを考案し, 次数$\mathcal{O}(1/T)$のサンプル複雑性境界を確立する。提案する \textsf{parl} は,deepmind コントロールスイートとmeta world タスクの大規模環境におけるポリシーアライメントに対する大幅な改善(必要なサンプル数で最大 63 % まで)を示すことにより,rl におけるアライメント問題に対処することができる。

関連論文リスト

Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual [26.51548597257528]
予備変数と二重変数の予測更新を組み込んだ楽観的原始双対(OPD)アルゴリズムを導入し,サドル・ポイント・ダイナミクスを安定化させる。この分析により,制約されたアライメント目的に固有の振動を緩和する上で,楽観主義が重要な役割を担っていることが明らかとなった。
論文参考訳（メタデータ） (2026-02-25T17:54:52Z)
A Regularized Actor-Critic Algorithm for Bi-Level Reinforcement Learning [24.969317765059174]
我々は,上層目標が滑らかな関数であり,下層問題はマルコフ決定過程(MDP)におけるポリシー最適化である構造的二層最適化問題について検討する。既存の2段階最適化法とRLは、しばしば2階情報を必要とし、下位レベルに強い正規化を課すか、ネストループ手順でサンプルを非効率に利用する。本稿では, ペナルティに基づくリフレクションにより, 両レベル目標を最適化する単一ループ一階アクター批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2026-01-23T02:12:24Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Graph-attention-based Casual Discovery with Trust Region-navigated Clipping Policy Optimization [13.75709067982844]
因果発見のための信頼領域探索型クリッピングポリシー最適化手法を提案する。また、SDGATと呼ばれる改良されたグラフアテンションエンコーダを提案し、効率よく変数を符号化する。これらの改善により、提案手法は、合成データセットとベンチマークデータセットの両方において、以前のRL法よりも優れている。
論文参考訳（メタデータ） (2024-12-27T10:50:43Z)
Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文参考訳（メタデータ） (2024-07-24T12:00:30Z)
Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning [17.245293915129942]
最適目的は強化学習(RL)の基本的側面である総リターンは理想的であるが、割引リターンはその安定性のために現実的な目的である。目的を整合させる2つの方法を提案する。
論文参考訳（メタデータ） (2024-07-18T08:33:10Z)
SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文参考訳（メタデータ） (2024-06-21T18:05:35Z)
e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文参考訳（メタデータ） (2024-06-13T20:12:09Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Robust Data-driven Prescriptiveness Optimization [4.792851066169871]
本稿では、古典的経験的リスク目標最小化に代えて、規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。サンプル外データセットが様々な分散シフトを受ける場合の代替手法に対する結果のロバスト性を評価する。
論文参考訳（メタデータ） (2023-06-09T14:56:06Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文参考訳（メタデータ） (2020-06-22T03:13:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。