Fugu-MT 論文翻訳(概要): Strategyproof Reinforcement Learning from Human Feedback

論文の概要: Strategyproof Reinforcement Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2503.09561v1
Date: Wed, 12 Mar 2025 17:25:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.870731
Title: Strategyproof Reinforcement Learning from Human Feedback
Title（参考訳）: 人からのフィードバックによる防御強化学習
Authors: Thomas Kleine Buening, Jiarui Gan, Debmalya Mandal, Marta Kwiatkowska,
Abstract要約: 既存のRLHF法は, 防御性がないことを示す。また, 任意のRLHFアルゴリズムは, 最適ポリシーよりも$k$-times悪い処理をしなければならないことも見いだした。
参考スコア（独自算出の注目度）: 27.129105195239465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study Reinforcement Learning from Human Feedback (RLHF), where multiple individuals with diverse preferences provide feedback strategically to sway the final policy in their favor. We show that existing RLHF methods are not strategyproof, which can result in learning a substantially misaligned policy even when only one out of $k$ individuals reports their preferences strategically. In turn, we also find that any strategyproof RLHF algorithm must perform $k$-times worse than the optimal policy, highlighting an inherent trade-off between incentive alignment and policy alignment. We then propose a pessimistic median algorithm that, under appropriate coverage assumptions, is approximately strategyproof and converges to the optimal policy as the number of individuals and samples increases.
Abstract（参考訳）: 本稿では,RLHF(Reinforcement Learning from Human Feedback)について検討する。既存のRLHF法は、戦略的ではないことが示され、その結果、kドルのうち1つだけが戦略的に好みを報告している場合でも、かなり不整合性のあるポリシーを学習することができる。また、任意の戦略的RLHFアルゴリズムは、最適ポリシーよりも$k$-times悪い処理をしなければならないことを示し、インセンティブアライメントとポリシーアライメントの本質的にのトレードオフを強調している。次に、適切なカバレッジ仮定の下では、ほぼ戦略的であり、個人やサンプルの数が増えるにつれて最適なポリシーに収束する悲観的な中央値アルゴリズムを提案する。

関連論文リスト

Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs [126.45104018441698]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の中心パラダイムとなっている。この失敗は、解の集合の多様性よりもむしろ局所的なトークンの振る舞いを規則化することに起因すると我々は主張する。我々は,まれなハイレベル戦略を示す正しいソリューションを明示的に報酬する,ロールアウトレベルの目標であるUniqueness-Aware Reinforcement Learningを提案する。
論文参考訳（メタデータ） (2026-01-13T17:48:43Z)
Best-Effort Policies for Robust Markov Decision Processes [69.60742680559788]
我々は、ロバスト MDP (RMDPs) として知られる遷移確率の組によるマルコフ決定過程(MDPs)の共通一般化について研究する。このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-08-11T09:18:34Z)
Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文参考訳（メタデータ） (2025-05-21T09:41:53Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文参考訳（メタデータ） (2024-06-27T14:03:49Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文参考訳（メタデータ） (2024-03-10T21:45:12Z)
POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-02-09T03:01:13Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文参考訳（メタデータ） (2023-01-30T07:53:53Z)
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文参考訳（メタデータ） (2022-12-19T22:43:08Z)
Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees [8.610425739792284]
RLにおける非政治政策最適化の領域を再考する。一般的に使用されるアプローチの1つは、代理目的を最適化するために、政治外の政策勾配を活用することである。このアプローチは、分散ミスマッチの問題に悩まされていることが示されている。
論文参考訳（メタデータ） (2022-12-10T07:47:04Z)
Strategic Decision-Making in the Presence of Information Asymmetry: Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文参考訳（メタデータ） (2022-08-23T15:32:44Z)
CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文参考訳（メタデータ） (2022-05-19T09:48:56Z)
Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-16T12:47:54Z)
Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。次に,政策最適化におけるコミット率の概念を紹介する。第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文参考訳（メタデータ） (2021-10-29T06:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。