Fugu-MT 論文翻訳(概要): Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction

論文の概要: Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction

arxiv url: http://arxiv.org/abs/2411.00361v1
Date: Fri, 01 Nov 2024 04:58:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.18911
Title: Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction
Title（参考訳）: 階層的選好最適化:実現可能なサブゴール予測による目標達成学習
Authors: Utsav Singh, Souradip Chakraborty, Wesley A. Suttle, Brian M. Sadler, Anit Kumar Sahu, Mubarak Shah, Vinay P. Namboodiri, Amrit Singh Bedi,
Abstract要約: 本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。 HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
参考スコア（独自算出の注目度）: 71.81851971324187
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This work introduces Hierarchical Preference Optimization (HPO), a novel approach to hierarchical reinforcement learning (HRL) that addresses non-stationarity and infeasible subgoal generation issues when solving complex robotic control tasks. HPO leverages maximum entropy reinforcement learning combined with token-level Direct Preference Optimization (DPO), eliminating the need for pre-trained reference policies that are typically unavailable in challenging robotic scenarios. Mathematically, we formulate HRL as a bi-level optimization problem and transform it into a primitive-regularized DPO formulation, ensuring feasible subgoal generation and avoiding degenerate solutions. Extensive experiments on challenging robotic navigation and manipulation tasks demonstrate impressive performance of HPO, where it shows an improvement of up to 35% over the baselines. Furthermore, ablation studies validate our design choices, and quantitative analyses confirm the ability of HPO to mitigate non-stationarity and infeasible subgoal generation issues in HRL.
Abstract（参考訳）: これは、複雑なロボット制御タスクを解く際に、非定常性と不可能なサブゴール生成問題に対処する階層的強化学習(HRL)の新しいアプローチである。 HPOは、最大エントロピー強化学習とトークンレベルの直接参照最適化(DPO)を組み合わせることで、通常困難なロボットシナリオでは利用できない事前訓練された参照ポリシーの必要性を排除している。数学的には、HRLを二段階最適化問題として定式化し、原始正規化DPOの定式化に変換し、実現可能なサブゴール生成を保証し、退化した解を避ける。ロボットナビゲーションと操作タスクに挑戦する大規模な実験は、HPOの素晴らしいパフォーマンスを示し、ベースラインよりも最大35%改善されている。さらに,HPOがHRLの非定常性および非実用的サブゴール生成問題を緩和する能力を定量的に検証し,我々の設計選択を検証した。

関連論文リスト

ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
PEO: Improving Bi-Factorial Preference Alignment with Post-Training Policy Extrapolation [5.347428263669927]
ポストトレーニング外挿最適化(PEO)は、二要素アライメントのための新しく効率的なフレームワークである。 PEOは3相パイプラインを利用して、1つのトレーニングパスで最適なポリシーのファミリーを生成する。
論文参考訳（メタデータ） (2025-03-03T06:56:39Z)
HyperQ-Opt: Q-learning for Hyperparameter Optimization [0.0]
本稿では,HPOを逐次決定問題として定式化し,強化学習技術であるQ-ラーニングを活用することにより,HPOに対する新たな視点を示す。これらのアプローチは、限られた試行数で最適または準最適構成を見つける能力について評価されている。このパラダイムをポリシーベースの最適化にシフトすることで、スケーラブルで効率的な機械学習アプリケーションのためのHPOメソッドの進歩に寄与する。
論文参考訳（メタデータ） (2024-12-23T18:22:34Z)
Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文参考訳（メタデータ） (2024-11-12T07:09:44Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。 XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文参考訳（メタデータ） (2024-05-31T17:39:06Z)
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It [20.312864152544954]
我々は,HPOのサロゲート目的として一般化性能の非バイアス推定器を鼻で適用すると,予期せぬ故障が生じることを示した。本稿では,上記の課題を同時に扱うために,一般的なHPO手順に対する単純で効率的な補正法を提案する。
論文参考訳（メタデータ） (2024-04-23T14:34:16Z)
From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文参考訳（メタデータ） (2024-04-18T17:37:02Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。 RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。 DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。 Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文参考訳（メタデータ） (2023-09-28T08:29:44Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)
Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文参考訳（メタデータ） (2021-10-15T11:46:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。