Fugu-MT 論文翻訳(概要): Conditions on Preference Relations that Guarantee the Existence of Optimal Policies

論文の概要: Conditions on Preference Relations that Guarantee the Existence of Optimal Policies

arxiv url: http://arxiv.org/abs/2311.01990v1
Date: Fri, 3 Nov 2023 15:42:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 13:47:31.522651
Title: Conditions on Preference Relations that Guarantee the Existence of Optimal Policies
Title（参考訳）: 最適政策の存在を保証する選好関係の条件
Authors: Jonathan Colaco Carr, Prakash Panangaden, Doina Precup
Abstract要約: 我々は、部分的に観測可能な非マルコフ環境におけるLfPF問題を解析するための新しいフレームワークであるDirect Preference Processを紹介する。 von Neumann-Morgenstern expecteded Utility Theorem を用いて、直接選好プロセスが標準的な強化学習問題を一般化することを示す。
参考スコア（独自算出の注目度）: 42.90290638427277
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning from Preferential Feedback (LfPF) plays an essential role in training Large Language Models, as well as certain types of interactive learning agents. However, a substantial gap exists between the theory and application of LfPF algorithms. Current results guaranteeing the existence of optimal policies in LfPF problems assume that both the preferences and transition dynamics are determined by a Markov Decision Process. We introduce the Direct Preference Process, a new framework for analyzing LfPF problems in partially-observable, non-Markovian environments. Within this framework, we establish conditions that guarantee the existence of optimal policies by considering the ordinal structure of the preferences. Using the von Neumann-Morgenstern Expected Utility Theorem, we show that the Direct Preference Process generalizes the standard reinforcement learning problem. Our findings narrow the gap between the empirical success and theoretical understanding of LfPF algorithms and provide future practitioners with the tools necessary for a more principled design of LfPF agents.
Abstract（参考訳）: LfPF(Learning from Preferential Feedback)は、大規模言語モデルやある種の対話型学習エージェントの訓練において重要な役割を担っている。しかし、LfPFアルゴリズムの理論と応用の間にはかなりのギャップがある。 LfPF問題における最適ポリシーの存在を保証する現在の結果は、選好と遷移力学の両方がマルコフ決定プロセスによって決定されると仮定している。我々は、部分的に観測可能な非マルコフ環境におけるLfPF問題を解析するための新しいフレームワークであるDirect Preference Processを紹介する。この枠組みでは,選好の順序構造を考慮し,最適政策の存在を保証する条件を確立する。 von Neumann-Morgenstern expecteded Utility Theoremを用いて、直接選好プロセスが標準的な強化学習問題を一般化することを示す。我々は,LfPFアルゴリズムの実証的成功と理論的理解のギャップを狭め,LfPFエージェントのより原理化された設計に必要なツールを将来の実践者に提供した。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning [36.00719049772089]
本稿では,信頼領域選好近似(TRPA)アルゴリズムを提案する。好みに基づくアルゴリズムとして、TRPAは報酬ハッキングの問題を自然に排除する。実験の結果,TRPAは推論タスクの競争性能だけでなく,安定度も高いことがわかった。
論文参考訳（メタデータ） (2025-04-06T15:48:26Z)
Optimization Solution Functions as Deterministic Policies for Offline Reinforcement Learning [7.07623669995408]
本稿では,最適化の最適値に対する決定論的ポリシー(アクター)および単調関数として最適化解関数を用いる暗黙的アクター批判(iAC)フレームワークを提案する。学習ポリシーは指数的減衰感度(EDS)特性を介して学習したアクターパラメータの準最適性に頑健であることを示す。提案手法を実世界の2つのアプリケーションで検証し, 最先端(SOTA)オフラインRL法よりも大幅に改善したことを示す。
論文参考訳（メタデータ） (2024-08-27T19:04:32Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文参考訳（メタデータ） (2023-05-11T14:50:20Z)
Sample Efficient Model-free Reinforcement Learning from LTL Specifications with Optimality Guarantees [17.69385864791265]
未知のシステムに対して最適なポリシーを効率的に学習するモデルフリー強化学習(RL)手法を提案する。また、最適性を確保するために鍵パラメータの選択に関する理論的結果も改善した。
論文参考訳（メタデータ） (2023-05-02T12:57:05Z)
A Parametric Class of Approximate Gradient Updates for Policy Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文参考訳（メタデータ） (2022-06-17T01:28:38Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。勾配に基づく解法を用いる場合、REPSの性能には保証がない。最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文参考訳（メタデータ） (2021-03-17T16:22:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。