論文の概要: Exploration from a Primal-Dual Lens: Value-Incentivized Actor-Critic Methods for Sample-Efficient Online RL
- arxiv url: http://arxiv.org/abs/2506.22401v1
- Date: Fri, 27 Jun 2025 17:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.307133
- Title: Exploration from a Primal-Dual Lens: Value-Incentivized Actor-Critic Methods for Sample-Efficient Online RL
- Title(参考訳): プリマルデュアルレンズからの探索:オンラインRLの値インセンティブアクタークリティカル法
- Authors: Tong Yang, Bo Dai, Lin Xiao, Yuejie Chi,
- Abstract要約: 複雑な関数近似を持つオンライン強化学習(RL)は、現代の人工知能の実践において重要な役割を果たす。
探検と搾取の基本的なトレードオフのバランスは、依然として長年にわたる課題である。
本稿では,主対最適化のレンズによる楽観主義の原理を解釈する。
- 参考スコア(独自算出の注目度): 40.05960121330012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online reinforcement learning (RL) with complex function approximations such as transformers and deep neural networks plays a significant role in the modern practice of artificial intelligence. Despite its popularity and importance, balancing the fundamental trade-off between exploration and exploitation remains a long-standing challenge; in particular, we are still in lack of efficient and practical schemes that are backed by theoretical performance guarantees. Motivated by recent developments in exploration via optimistic regularization, this paper provides an interpretation of the principle of optimism through the lens of primal-dual optimization. From this fresh perspective, we set forth a new value-incentivized actor-critic (VAC) method, which optimizes a single easy-to-optimize objective integrating exploration and exploitation -- it promotes state-action and policy estimates that are both consistent with collected data transitions and result in higher value functions. Theoretically, the proposed VAC method has near-optimal regret guarantees under linear Markov decision processes (MDPs) in both finite-horizon and infinite-horizon settings, which can be extended to the general function approximation setting under appropriate assumptions.
- Abstract(参考訳): トランスフォーマーやディープニューラルネットワークのような複雑な機能近似を持つオンライン強化学習(RL)は、現代の人工知能の実践において重要な役割を果たす。
その人気と重要性にもかかわらず、探検と搾取の基本的なトレードオフは長年にわたる課題であり、特に、理論的な性能保証に支えられた効率的で実践的なスキームがまだ不足している。
楽観的正則化による探索の最近の発展により、本論文は、原始双対最適化のレンズによる楽観主義の原理の解釈を提供する。
この新たな視点から、我々は新しいバリューインセンティブ付きアクタークリティカル(VAC)メソッドを作成し、探索とエクスプロイトの統合を最適化し、収集されたデータ遷移と一致した状態アクションとポリシー推定を促進し、より高い値関数をもたらす。
理論的には、VAC法は有限水平および無限水平の両方の設定において線形マルコフ決定過程(MDP)の下でほぼ最適の後悔の保証を持ち、適切な仮定の下で一般関数近似に拡張することができる。
関連論文リスト
- Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Nonmyopic Global Optimisation via Approximate Dynamic Programming [14.389086937116582]
我々はIDWとRBFに基づくグローバルな最適化に適した新しい非筋力的獲得戦略を導入する。
具体的には、ロールアウトやマルチステップシナリオベースの最適化スキームを含む動的プログラミングベースのパラダイムを開発する。
論文 参考訳(メタデータ) (2024-12-06T09:25:00Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。