論文の概要: On Zero-Shot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.16496v1
- Date: Fri, 22 Aug 2025 16:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.447556
- Title: On Zero-Shot Reinforcement Learning
- Title(参考訳): ゼロショット強化学習について
- Authors: Scott Jeen,
- Abstract要約: 強化学習システムは、人間の能力をはるかに超えるシーケンシャルな意思決定方針を明らかにする。
新しいデータが安価にシミュレートできないドメインでは、既存のデータからシミュレータを学習できますが、これらはほぼ正しくありません。
本研究は、3つの制約を条件としてゼロショットRLを実行する一連の手法を提案する。
これらの設計は、実世界の問題を解決するためにデプロイできるRLメソッドに一歩近づいたと信じています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern reinforcement learning (RL) systems capture deep truths about general, human problem-solving. In domains where new data can be simulated cheaply, these systems uncover sequential decision-making policies that far exceed the ability of any human. Society faces many problems whose solutions require this skill, but they are often in domains where new data cannot be cheaply simulated. In such scenarios, we can learn simulators from existing data, but these will only ever be approximately correct, and can be pathologically incorrect when queried outside of their training distribution. As a result, a misalignment between the environments in which we train our agents and the real-world in which we wish to deploy our agents is inevitable. Dealing with this misalignment is the primary concern of zero-shot reinforcement learning, a problem setting where the agent must generalise to a new task or domain with zero practice shots. Whilst impressive progress has been made on methods that perform zero-shot RL in idealised settings, new work is needed if these results are to be replicated in real-world settings. In this thesis, we argue that doing so requires us to navigate (at least) three constraints. First, the data quality constraint: real-world datasets are small and homogeneous. Second, the observability constraint: states, dynamics and rewards in the real-world are often only partially observed. And third, the data availability constraint: a priori access to data cannot always be assumed. This work proposes a suite of methods that perform zero-shot RL subject to these constraints. In a series of empirical studies we expose the failings of existing methods, and justify our techniques for remedying them. We believe these designs take us a step closer to RL methods that can be deployed to solve real-world problems.
- Abstract(参考訳): 現代の強化学習(RL)システムは、一般的な人間の問題解決に関する深い真実を捉えている。
新しいデータを安価にシミュレートできる領域では、これらのシステムは人間の能力をはるかに超えるシーケンシャルな意思決定ポリシーを明らかにする。
社会はこのスキルを必要とする多くの問題に直面していますが、新しいデータが安価にシミュレートできない領域ではよくあります。
このようなシナリオでは、既存のデータからシミュレータを学習できますが、これらはほとんど正しくないでしょう。
その結果、エージェントを訓練する環境と、エージェントをデプロイしたい実世界との相違は避けられないものとなった。
このミスアライメントに対処することは、ゼロショット強化学習の主要な関心事であり、エージェントがゼロの練習ショットを持つ新しいタスクやドメインに一般化しなければならない問題設定である。
理想的な設定でゼロショットRLを実行するメソッドでは驚くべき進歩があったが、これらの結果が現実世界の設定で複製される場合、新しい作業が必要である。
この論文では、そうするためには、少なくとも3つの制約をナビゲートする必要があります。
まず、データ品質の制約: 実世界のデータセットは小さく、均一である。
第二に、実世界の状態、ダイナミクス、報酬は部分的にのみ観察される。
そして第3に、データ可用性の制約 — データへの優先順位アクセスは、常に想定できない。
本研究は、これらの制約に従うゼロショットRLを実行する一連の手法を提案する。
実験的な研究のシリーズでは、既存の方法の失敗を暴露し、それらを治療するためのテクニックを正当化します。
これらの設計は、実世界の問題を解決するためにデプロイできるRLメソッドに一歩近づいたと信じています。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文 参考訳(メタデータ) (2023-11-05T19:43:23Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。