論文の概要: The Indoor-Training Effect: unexpected gains from distribution shifts in the transition function
- arxiv url: http://arxiv.org/abs/2401.15856v2
- Date: Wed, 08 Jan 2025 16:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:54:05.879283
- Title: The Indoor-Training Effect: unexpected gains from distribution shifts in the transition function
- Title(参考訳): 室内学習効果:遷移関数の分布変化による予期せぬ利得
- Authors: Serena Bono, Spandan Madan, Ishaan Grover, Mao Yasueda, Cynthia Breazeal, Hanspeter Pfister, Gabriel Kreiman,
- Abstract要約: ノイズフリー環境において, エージェントは, ノイズフリー環境下での訓練や, ノイズの多いデルタ環境下での試験において, より優れた性能を発揮することを示す。
PacMan,Pong,Breakoutなど60種類のATARIゲームに対して,この現象を実証した。
- 参考スコア(独自算出の注目度): 36.036398356881016
- License:
- Abstract: Is it better to perform tennis training in a pristine indoor environment or a noisy outdoor one? To model this problem, here we investigate whether shifts in the transition probabilities between the training and testing environments in reinforcement learning problems can lead to better performance under certain conditions. We generate new Markov Decision Processes (MDPs) starting from a given MDP, by adding quantifiable, parametric noise into the transition function. We refer to this process as Noise Injection and the resulting environments as {\delta}-environments. This process allows us to create variations of the same environment with quantitative control over noise serving as a metric of distance between environments. Conventional wisdom suggests that training and testing on the same MDP should yield the best results. In stark contrast, we observe that agents can perform better when trained on the noise-free environment and tested on the noisy {\delta}-environments, compared to training and testing on the same {\delta}-environments. We confirm that this finding extends beyond noise variations: it is possible to showcase the same phenomenon in ATARI game variations including varying Ghost behaviour in PacMan, and Paddle behaviour in Pong. We demonstrate this intriguing behaviour across 60 different variations of ATARI games, including PacMan, Pong, and Breakout. We refer to this phenomenon as the Indoor-Training Effect. Code to reproduce our experiments and to implement Noise Injection can be found at https://bit.ly/3X6CTYk.
- Abstract(参考訳): 室内の質素な環境でテニスのトレーニングをしたり、騒々しい屋外のトレーニングをしたりしたほうがよいだろうか?
この問題をモデル化するために,強化学習問題におけるトレーニング環境とテスト環境の遷移確率の変化が,特定の条件下での性能向上につながるかどうかを検討する。
我々は、遷移関数に定量パラメトリックノイズを加えることにより、与えられたMDPから始まる新しいマルコフ決定過程(MDP)を生成する。
この過程をノイズ注入と呼び、その結果の環境を「デルタ環境」と呼ぶ。
このプロセスにより、環境間の距離のメートル法として機能するノイズを定量的に制御し、同じ環境のバリエーションを作成することができる。
従来の知恵は、同じMDPでのトレーニングとテストが最良の結果をもたらすことを示唆している。
対照的に,ノイズフリー環境ではエージェントが,同じ環境下でのトレーニングやテストに比べ,ノイズフリー環境でのトレーニングでは,より優れたパフォーマンスが期待できる。
PacMan のゴースト動作や Pong のパドル動作など,ATARI ゲームのバリエーションでも同じ現象を示すことが可能である。
PacMan,Pong,Breakoutなど60種類のATARIゲームに対して,この興味深い動作を示す。
この現象を室内訓練効果と呼ぶ。
実験を再現し、ノイズ注入を実装するためのコードはhttps://bit.ly/3X6CTYk.orgにある。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Diffusion Models With Learned Adaptive Noise [12.530583016267768]
本稿では,拡散過程がデータから学べるかどうかを考察する。
広く信じられている仮定は、ELBOはノイズプロセスに不変であるということである。
画像間で異なる速度でノイズを印加する学習拡散過程であるMULANを提案する。
論文 参考訳(メタデータ) (2023-12-20T18:00:16Z) - May the Noise be with you: Adversarial Training without Adversarial
Examples [3.4673556247932225]
我々は、敵の訓練を受けずに敵の訓練を受けたモデルを得ることができるかという疑問を調査する。
提案手法は,訓練時にNNモデルの層にガウス雑音を埋め込むことによって固有性を取り入れる。
我々の研究は、全く異なるアプローチで敵の訓練を受けたネットワークに貢献し、敵の訓練と経験的に類似した堅牢性を持つ。
論文 参考訳(メタデータ) (2023-12-12T08:22:28Z) - Negative Pre-aware for Noisy Cross-modal Matching [46.5591267410225]
雑音対応は認識と修正が難しいため,クロスモーダルノイズロバスト学習は難しい課題である。
本稿では,雑音の多い下流タスクに対する大規模視覚言語モデルファインタニングのための,否定的事前認識型クロスモーダルマッチングソリューションを提案する。
論文 参考訳(メタデータ) (2023-12-10T05:52:36Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。