論文の概要: Improving Zero-Shot Offline RL via Behavioral Task Sampling
- arxiv url: http://arxiv.org/abs/2604.25496v1
- Date: Tue, 28 Apr 2026 10:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.828488
- Title: Improving Zero-Shot Offline RL via Behavioral Task Sampling
- Title(参考訳): 動作タスクサンプリングによるゼロショットオフラインRLの改善
- Authors: Nazim Bendib, Nicolas Perrin-Gilbert, Olivier Sigaud,
- Abstract要約: オフラインのゼロショット強化学習は、追加の環境相互作用なしで、見知らぬ報酬関数を最適化するエージェントを学習することを目的としている。
多くの既存のアルゴリズムでは、タスクベクトルはランダムにサンプリングされ、これがタスク空間の構造を適切に捉えていると暗黙的に仮定する。
我々は、そうすることで極小ゼロショットの一般化につながると論じる。
本稿では,既存のオフラインゼロショットRLアルゴリズムと統合した,単純で汎用的な報酬関数抽出手法を提案する。
- 参考スコア(独自算出の注目度): 5.045010561958866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline zero-shot reinforcement learning (RL) aims to learn agents that optimize unseen reward functions without additional environment interaction. The standard approach to this problem trains task-conditioned policies by sampling task vectors that define linear reward functions over learned state representations. In most existing algorithms, these task vectors are randomly sampled, implicitly assuming this adequately captures the structure of the task space. We argue that doing so leads to suboptimal zero-shot generalization. To address this limitation, we propose extracting task vectors directly from the offline dataset and using them to define the task distribution used for policy training. We introduce a simple and general reward function extraction procedure that integrates into existing offline zero-shot RL algorithms. Across multiple benchmark environments and baselines, our approach improves zero-shot performance by an average of 20%, highlighting the importance of principled task sampling in offline zero-shot RL.
- Abstract(参考訳): オフラインゼロショット強化学習(英: Offline zero-shot reinforcement learning, RL)は、環境相互作用を伴わずに、見知らぬ報酬関数を最適化するエージェントを学習することを目的としている。
この問題に対する標準的なアプローチは、学習状態表現よりも線形報酬関数を定義するタスクベクトルをサンプリングすることで、タスク条件付きポリシーを訓練する。
多くの既存のアルゴリズムでは、これらのタスクベクトルはランダムにサンプリングされ、これがタスク空間の構造を適切に捉えていると暗黙的に仮定する。
我々は、そうすることで準最適ゼロショットの一般化につながると論じる。
この制限に対処するため、オフラインデータセットから直接タスクベクトルを抽出し、それを用いてポリシートレーニングに使用されるタスク分布を定義する。
本稿では,既存のオフラインゼロショットRLアルゴリズムと統合した,単純で汎用的な報酬関数抽出手法を提案する。
複数のベンチマーク環境とベースラインにおいて,本手法はゼロショット性能を平均20%向上させ,オフラインゼロショットRLにおけるタスクサンプリングの重要性を強調した。
関連論文リスト
- Soft Forward-Backward Representations for Zero-shot Reinforcement Learning with General Utilities [55.52456333246921]
フォワード・バックワードアルゴリズムは、任意の標準RL問題をほぼ解決できるポリシーの族を検索することができる。
汎用ユーティリティを用いたRLのより大きい問題クラスに取り組み、その目的は占有率の任意の微分可能関数である。
この複雑さは、フォワード・バックワードアルゴリズムの新たな最大エントロピー(ソフト)変種によって捉えられることを示す。
論文 参考訳(メタデータ) (2026-02-06T15:24:37Z) - Zero-Shot Off-Policy Learning [9.729890516322781]
オフ政治学習法は、事前の相互作用の固定されたデータセットから直接最適なポリシーを導き出そうとする。
本研究では, 定常密度比に対する後継対策の理論的関連を見出すことにより, ゼロショット環境での政治外問題に対処する。
提案アルゴリズムは最適な重要度サンプリング比を推定し,任意のタスクに対して最適なポリシで定常分布補正を効果的に行う。
論文 参考訳(メタデータ) (2026-02-02T11:06:31Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。
学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Unsupervised Zero-Shot Reinforcement Learning via Functional Reward
Encodings [107.1837163643886]
本稿では、このゼロショットRL問題に対する汎用的でスケーラブルな解として、関数型報酬符号化(FRE)を提案する。
我々の主な考え方は、任意のタスクの関数表現を、状態逆サンプルを符号化することで学習することである。
多様なランダムな非教師付き報酬関数で訓練されたFREエージェントが、新しいタスクを解くために一般化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-02-27T01:59:02Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Zero-Shot Reinforcement Learning from Low Quality Data [5.079602839359521]
ゼロショット強化学習(Zero-shot reinforcement learning, RL)は、オフラインで報酬なしの事前トレーニングフェーズの後に、環境内であらゆるタスクを実行できるエージェントを提供することを約束する。
そこで本研究では、ゼロショットRL法の性能が、小さな同種データセットでトレーニングした場合にどのように低下するかを考察する。
本稿では,単一タスクのオフラインRLアルゴリズムの高性能な特徴である保守性に着想を得た修正を提案する。
論文 参考訳(メタデータ) (2023-09-26T18:20:20Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。