論文の概要: World Model Agents with Change-Based Intrinsic Motivation
- arxiv url: http://arxiv.org/abs/2503.21047v1
- Date: Wed, 26 Mar 2025 23:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:49.063065
- Title: World Model Agents with Change-Based Intrinsic Motivation
- Title(参考訳): 変化に基づく固有モチベーションを持つ世界モデルエージェント
- Authors: Jeremias Ferrao, Rafael Cunha,
- Abstract要約: この問題に対処するための有望な戦略として、本質的なモチベーションと伝達学習が出現している。
CBET(Change Based Exploration Transfer)は、スパースフィードバックに対処する可能性を示しているが、現代のアルゴリズムによるその有効性はまだ検討されていない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sparse reward environments pose a significant challenge for reinforcement learning due to the scarcity of feedback. Intrinsic motivation and transfer learning have emerged as promising strategies to address this issue. Change Based Exploration Transfer (CBET), a technique that combines these two approaches for model-free algorithms, has shown potential in addressing sparse feedback but its effectiveness with modern algorithms remains understudied. This paper provides an adaptation of CBET for world model algorithms like DreamerV3 and compares the performance of DreamerV3 and IMPALA agents, both with and without CBET, in the sparse reward environments of Crafter and Minigrid. Our tabula rasa results highlight the possibility of CBET improving DreamerV3's returns in Crafter but the algorithm attains a suboptimal policy in Minigrid with CBET further reducing returns. In the same vein, our transfer learning experiments show that pre-training DreamerV3 with intrinsic rewards does not immediately lead to a policy that maximizes extrinsic rewards in Minigrid. Overall, our results suggest that CBET provides a positive impact on DreamerV3 in more complex environments like Crafter but may be detrimental in environments like Minigrid. In the latter case, the behaviours promoted by CBET in DreamerV3 may not align with the task objectives of the environment, leading to reduced returns and suboptimal policies.
- Abstract(参考訳): 緩やかな報奨環境は、フィードバックの不足により強化学習にとって大きな課題となる。
この問題に対処するための有望な戦略として、本質的なモチベーションと伝達学習が出現している。
モデルフリーなアルゴリズムの2つのアプローチを組み合わせたCBET(Change Based Exploration Transfer)は、スパースフィードバックに対処する可能性を示しているが、現代のアルゴリズムの有効性はまだ検討されていない。
本稿では,DreamerV3 などの世界モデルアルゴリズムに対する CBET の適応と,Crafter と Minigrid のスパース報酬環境における DreamerV3 と IMPALA エージェントの性能の比較を行う。
タビューララサの結果は,DreamerV3 の Crafter におけるリターンを改善する可能性を示しているが,このアルゴリズムは Minigrid において CBET によるリターンの低減を図っている。
移行学習実験の結果,DreamerV3を内因性報酬で事前学習することは,Minigridにおける外因性報酬を最大化するための政策に直ちに結びつくわけではないことがわかった。
我々の結果は、CBETがCrafterのような複雑な環境でDreamerV3にポジティブな影響を与えることを示唆していますが、Minigridのような環境では有害かもしれません。
後者の場合、CBETがDreamerV3で推進する行動は環境のタスク目標と一致しない可能性があるため、リターンや準最適政策が減少する。
関連論文リスト
- Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。
様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文 参考訳(メタデータ) (2024-10-08T08:04:09Z) - The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards [31.806143589311652]
VLM(Vision-Language Models)は、エンボディエージェントを訓練するための報酬信号を生成するために使われるようになっている。
我々の研究によると、VLM報酬によって誘導されるエージェントは、本質的な報酬のみを使用するエージェントに比べて、しばしばパフォーマンスが劣っている。
ノイズを緩和する新しい報奨関数であるBiMIを導入する。
論文 参考訳(メタデータ) (2024-09-24T09:45:20Z) - MuDreamer: Learning Predictive World Models without Reconstruction [58.0159270859475]
本稿では,DreamerV3アルゴリズムに基づく堅牢な強化学習エージェントであるMuDreamerについて述べる。
本手法は,Atari100kベンチマークにおいて,より高速なトレーニングの恩恵を受けながら,同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T22:09:01Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。