論文の概要: Look Around! Unexpected gains from training on environments in the
vicinity of the target
- arxiv url: http://arxiv.org/abs/2401.15856v1
- Date: Mon, 29 Jan 2024 03:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:16:15.382980
- Title: Look Around! Unexpected gains from training on environments in the
vicinity of the target
- Title(参考訳): 周りを見ろ!
目標近傍の環境におけるトレーニングによる予期せぬ利得
- Authors: Serena Bono, Spandan Madan, Ishaan Grover, Mao Yasueda, Cynthia
Breazeal, Hanspeter Pfister, Gabriel Kreiman
- Abstract要約: 遷移確率の小さな変化の下で強化学習エージェント(RL)の一般化を評価するための新しい手法を提案する。
具体的には、トレーニングMDPの遷移関数に定量的なパラメトリックノイズを付加することにより、トレーニングMDP近傍の新しい環境(MDP)におけるエージェントを評価する。
- 参考スコア(独自算出の注目度): 37.5884934631708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solutions to Markov Decision Processes (MDP) are often very sensitive to
state transition probabilities. As the estimation of these probabilities is
often inaccurate in practice, it is important to understand when and how
Reinforcement Learning (RL) agents generalize when transition probabilities
change. Here we present a new methodology to evaluate such generalization of RL
agents under small shifts in the transition probabilities. Specifically, we
evaluate agents in new environments (MDPs) in the vicinity of the training MDP
created by adding quantifiable, parametric noise into the transition function
of the training MDP. We refer to this process as Noise Injection, and the
resulting environments as $\delta$-environments. This process allows us to
create controlled variations of the same environment with the level of the
noise serving as a metric of distance between environments. Conventional wisdom
suggests that training and testing on the same MDP should yield the best
results. However, we report several cases of the opposite -- when targeting a
specific environment, training the agent in an alternative noise setting can
yield superior outcomes. We showcase this phenomenon across $60$ different
variations of ATARI games, including PacMan, Pong, and Breakout.
- Abstract(参考訳): マルコフ決定過程(MDP)の解はしばしば状態遷移確率に非常に敏感である。
これらの確率の予測は実際は不正確な場合が多いため、遷移確率が変化したときの強化学習(Reinforcement Learning, RL)エージェントの一般化の時期と方法を理解することが重要である。
本稿では,遷移確率の小さな変化下でのrlエージェントの一般化を評価する新しい手法を提案する。
具体的には、トレーニングMDPの遷移関数に定量的なパラメトリックノイズを付加することにより、トレーニングMDP近傍の新しい環境(MDP)におけるエージェントを評価する。
我々は、このプロセスをノイズ注入と呼び、その結果の環境を$\delta$-environmentsと呼びます。
このプロセスにより、環境間の距離のメートル法として機能するノイズレベルの同じ環境の制御されたバリエーションを作成できます。
従来の知見では、同じmdp上でトレーニングとテストが最良の結果をもたらすべきである。
しかし, 特定の環境を対象とする場合, 代替ノイズ設定におけるエージェントの訓練は, 優れた結果をもたらす可能性がある。
私たちはこの現象を、PacMan、Pong、Breakoutなど、ATARIのさまざまなバリエーションで60ドルで紹介します。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Diffusion Models With Learned Adaptive Noise [12.530583016267768]
本稿では,拡散過程がデータから学べるかどうかを考察する。
広く信じられている仮定は、ELBOはノイズプロセスに不変であるということである。
画像間で異なる速度でノイズを印加する学習拡散過程であるMULANを提案する。
論文 参考訳(メタデータ) (2023-12-20T18:00:16Z) - May the Noise be with you: Adversarial Training without Adversarial
Examples [3.4673556247932225]
我々は、敵の訓練を受けずに敵の訓練を受けたモデルを得ることができるかという疑問を調査する。
提案手法は,訓練時にNNモデルの層にガウス雑音を埋め込むことによって固有性を取り入れる。
我々の研究は、全く異なるアプローチで敵の訓練を受けたネットワークに貢献し、敵の訓練と経験的に類似した堅牢性を持つ。
論文 参考訳(メタデータ) (2023-12-12T08:22:28Z) - Negative Pre-aware for Noisy Cross-modal Matching [46.5591267410225]
雑音対応は認識と修正が難しいため,クロスモーダルノイズロバスト学習は難しい課題である。
本稿では,雑音の多い下流タスクに対する大規模視覚言語モデルファインタニングのための,否定的事前認識型クロスモーダルマッチングソリューションを提案する。
論文 参考訳(メタデータ) (2023-12-10T05:52:36Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。