論文の概要: Soft Forward-Backward Representations for Zero-shot Reinforcement Learning with General Utilities
- arxiv url: http://arxiv.org/abs/2602.06769v1
- Date: Fri, 06 Feb 2026 15:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.439927
- Title: Soft Forward-Backward Representations for Zero-shot Reinforcement Learning with General Utilities
- Title(参考訳): 一般用途によるゼロショット強化学習のためのソフトフォワード・バックワード表現
- Authors: Marco Bagatella, Thomas Rupf, Georg Martius, Andreas Krause,
- Abstract要約: フォワード・バックワードアルゴリズムは、任意の標準RL問題をほぼ解決できるポリシーの族を検索することができる。
汎用ユーティリティを用いたRLのより大きい問題クラスに取り組み、その目的は占有率の任意の微分可能関数である。
この複雑さは、フォワード・バックワードアルゴリズムの新たな最大エントロピー(ソフト)変種によって捉えられることを示す。
- 参考スコア(独自算出の注目度): 55.52456333246921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in zero-shot reinforcement learning (RL) have facilitated the extraction of diverse behaviors from unlabeled, offline data sources. In particular, forward-backward algorithms (FB) can retrieve a family of policies that can approximately solve any standard RL problem (with additive rewards, linear in the occupancy measure), given sufficient capacity. While retaining zero-shot properties, we tackle the greater problem class of RL with general utilities, in which the objective is an arbitrary differentiable function of the occupancy measure. This setting is strictly more expressive, capturing tasks such as distribution matching or pure exploration, which may not be reduced to additive rewards. We show that this additional complexity can be captured by a novel, maximum entropy (soft) variant of the forward-backward algorithm, which recovers a family of stochastic policies from offline data. When coupled with zero-order search over compact policy embeddings, this algorithm can sidestep iterative optimization schemes, and optimizes general utilities directly at test-time. Across both didactic and high-dimensional experiments, we demonstrate that our method retains favorable properties of FB algorithms, while also extending their range to more general RL problems.
- Abstract(参考訳): ゼロショット強化学習(RL)の最近の進歩は、ラベルのないオフラインデータソースからの多様な振る舞いの抽出を容易にしている。
特に、フォワードバックワードアルゴリズム(FB)は、任意の標準RL問題を(占有率を線形に加法的な報酬で)ほぼ解決できるポリシーの族を検索することができる。
ゼロショット特性を保ちながら、一般用途で RL のより大きな問題クラスに取り組み、その目的が占有測度の任意の微分可能関数である。
この設定は厳密に表現され、分布マッチングや純粋探索のようなタスクをキャプチャする。
この複雑さは、オフラインデータから確率的ポリシーの族を復元するフォワードバックワードアルゴリズムの、新しい最大エントロピー(ソフト)変種によって捉えられることを示す。
コンパクトなポリシー埋め込みによるゼロオーダー探索と組み合わせると、このアルゴリズムは繰り返し最適化スキームをサイドステップし、テスト時に直接汎用性を最適化することができる。
実測と高次元の両方の実験において、本手法はFBアルゴリズムの良好な特性を維持しつつ、その範囲をより一般的なRL問題にまで拡張することを示した。
関連論文リスト
- Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback [38.61232011566285]
本稿では,最近提案されたRLモデルとアグリゲート帯域フィードバック(RL-ABF)について検討する。
本稿では,ABFを線形関数近似に拡張し,ほぼ最適後悔保証を伴う2つの効率的なアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-05-13T10:51:01Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。