論文の概要: Look Around! Unexpected gains from training on environments in the
vicinity of the target
- arxiv url: http://arxiv.org/abs/2401.15856v1
- Date: Mon, 29 Jan 2024 03:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:16:15.382980
- Title: Look Around! Unexpected gains from training on environments in the
vicinity of the target
- Title(参考訳): 周りを見ろ!
目標近傍の環境におけるトレーニングによる予期せぬ利得
- Authors: Serena Bono, Spandan Madan, Ishaan Grover, Mao Yasueda, Cynthia
Breazeal, Hanspeter Pfister, Gabriel Kreiman
- Abstract要約: 遷移確率の小さな変化の下で強化学習エージェント(RL)の一般化を評価するための新しい手法を提案する。
具体的には、トレーニングMDPの遷移関数に定量的なパラメトリックノイズを付加することにより、トレーニングMDP近傍の新しい環境(MDP)におけるエージェントを評価する。
- 参考スコア(独自算出の注目度): 37.5884934631708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solutions to Markov Decision Processes (MDP) are often very sensitive to
state transition probabilities. As the estimation of these probabilities is
often inaccurate in practice, it is important to understand when and how
Reinforcement Learning (RL) agents generalize when transition probabilities
change. Here we present a new methodology to evaluate such generalization of RL
agents under small shifts in the transition probabilities. Specifically, we
evaluate agents in new environments (MDPs) in the vicinity of the training MDP
created by adding quantifiable, parametric noise into the transition function
of the training MDP. We refer to this process as Noise Injection, and the
resulting environments as $\delta$-environments. This process allows us to
create controlled variations of the same environment with the level of the
noise serving as a metric of distance between environments. Conventional wisdom
suggests that training and testing on the same MDP should yield the best
results. However, we report several cases of the opposite -- when targeting a
specific environment, training the agent in an alternative noise setting can
yield superior outcomes. We showcase this phenomenon across $60$ different
variations of ATARI games, including PacMan, Pong, and Breakout.
- Abstract(参考訳): マルコフ決定過程(MDP)の解はしばしば状態遷移確率に非常に敏感である。
これらの確率の予測は実際は不正確な場合が多いため、遷移確率が変化したときの強化学習(Reinforcement Learning, RL)エージェントの一般化の時期と方法を理解することが重要である。
本稿では,遷移確率の小さな変化下でのrlエージェントの一般化を評価する新しい手法を提案する。
具体的には、トレーニングMDPの遷移関数に定量的なパラメトリックノイズを付加することにより、トレーニングMDP近傍の新しい環境(MDP)におけるエージェントを評価する。
我々は、このプロセスをノイズ注入と呼び、その結果の環境を$\delta$-environmentsと呼びます。
このプロセスにより、環境間の距離のメートル法として機能するノイズレベルの同じ環境の制御されたバリエーションを作成できます。
従来の知見では、同じmdp上でトレーニングとテストが最良の結果をもたらすべきである。
しかし, 特定の環境を対象とする場合, 代替ノイズ設定におけるエージェントの訓練は, 優れた結果をもたらす可能性がある。
私たちはこの現象を、PacMan、Pong、Breakoutなど、ATARIのさまざまなバリエーションで60ドルで紹介します。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Discovering Minimal Reinforcement Learning Environments [24.6408931194983]
強化学習(RL)エージェントは、通常、同じ環境で訓練され、評価される。
人間は試験を受ける前に本を勉強するなど、評価される前に専門的な環境で訓練することが多い。
論文 参考訳(メタデータ) (2024-06-18T13:19:26Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Explainable Reinforcement Learning via Model Transforms [18.385505289067023]
基礎となるマルコフ決定プロセスが完全には分かっていないとしても、それにもかかわらず、自動的に説明を生成するために利用することができる、と我々は主張する。
本稿では,従来の文献で最適ポリシー探索の高速化に用いられていた形式的MDP抽象化と変換を用いて,説明を自動的に生成することを提案する。
論文 参考訳(メタデータ) (2022-09-24T13:18:06Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Enhanced Scene Specificity with Sparse Dynamic Value Estimation [22.889059874754242]
マルチシーン強化学習は多くのアプリケーションに欠かせないものとなっている。
分散低減のための一つの戦略は、各シーンを別のマルコフ決定過程(MDP)として考えることである。
本稿では,真のシーン固有値関数と予測された動的推定値との誤差を,スパースクラスタ割り当てを段階的に実施することで,さらに低減することができると論じる。
論文 参考訳(メタデータ) (2020-11-25T08:35:16Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。