論文の概要: DreamerV3-XP: Optimizing exploration through uncertainty estimation
- arxiv url: http://arxiv.org/abs/2510.21418v1
- Date: Fri, 24 Oct 2025 12:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.474347
- Title: DreamerV3-XP: Optimizing exploration through uncertainty estimation
- Title(参考訳): DreamerV3-XP:不確実性推定による探索の最適化
- Authors: Lukas Bierling, Davide Pasero, Jan-Henrik Bertrand, Kiki Van Gerwen,
- Abstract要約: 本稿では,DreamerV3の拡張であるDreamerV3-XPを紹介する。
DreamerV3-XPは、Atari100kとDeepMind Control Visual Benchmarkタスクのサブセットで評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DreamerV3-XP, an extension of DreamerV3 that improves exploration and learning efficiency. This includes (i) a prioritized replay buffer, scoring trajectories by return, reconstruction loss, and value error and (ii) an intrinsic reward based on disagreement over predicted environment rewards from an ensemble of world models. DreamerV3-XP is evaluated on a subset of Atari100k and DeepMind Control Visual Benchmark tasks, confirming the original DreamerV3 results and showing that our extensions lead to faster learning and lower dynamics model loss, particularly in sparse-reward settings.
- Abstract(参考訳): 本稿では,DreamerV3の拡張であるDreamerV3-XPを紹介する。
これには
一 優先リプレイバッファ、リターン、リコンストラクション損失、値誤差
(二)世界模型の集合から予測される環境報酬に対する不一致に基づく本質的な報酬。
DreamerV3-XPは、Atari100kとDeepMind Control Visual Benchmarkタスクのサブセットで評価され、オリジナルのDreamerV3結果を確認し、我々の拡張が、特にスパース・リワード設定において、より高速な学習とより低いダイナミックスモデル損失をもたらすことを示す。
関連論文リスト
- CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - World Model Agents with Change-Based Intrinsic Motivation [0.0]
この問題に対処するための有望な戦略として、本質的なモチベーションと伝達学習が出現している。
CBET(Change Based Exploration Transfer)は、スパースフィードバックに対処する可能性を示しているが、現代のアルゴリズムによるその有効性はまだ検討されていない。
論文 参考訳(メタデータ) (2025-03-26T23:40:03Z) - Robust3D-CIL: Robust Class-Incremental Learning for 3D Perception [7.507868991415516]
3D知覚は、自律運転、ロボット工学、AR/VRといった現実世界の応用において重要な役割を果たす。
クラスインクリメンタルラーニング(CIL)の採用は特に重要である。
本稿では,制限されたリプレイバッファメモリをより効率的に活用するために,ポイントクラウドダウンサンプリングに基づくリプレイ手法を提案する。
提案手法は,リプレイベースのCILベースラインの性能を2%から11%向上させ,実世界の3Dアプリケーションに有望な可能性を証明した。
論文 参考訳(メタデータ) (2025-03-18T03:36:17Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - MuDreamer: Learning Predictive World Models without Reconstruction [58.0159270859475]
本稿では,DreamerV3アルゴリズムに基づく堅牢な強化学習エージェントであるMuDreamerについて述べる。
本手法は,Atari100kベンチマークにおいて,より高速なトレーニングの恩恵を受けながら,同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T22:09:01Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。