論文の概要: Learning Without Time-Based Embodiment Resets in Soft-Actor Critic
- arxiv url: http://arxiv.org/abs/2512.06252v1
- Date: Sat, 06 Dec 2025 02:53:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.264513
- Title: Learning Without Time-Based Embodiment Resets in Soft-Actor Critic
- Title(参考訳): ソフトアクター批判における時間に基づく身体的リセットのない学習
- Authors: Homayoon Farrahi, A. Rupam Mahmood,
- Abstract要約: 我々は,SACアルゴリズムを用いて,エピソード終末のない学習の課題とロボットエンボディメントのリセットについて検討する。
代名詞なしで学習するために,SACアルゴリズムの継続バージョンを示し,既存のタスクの報酬関数に簡単な修正を加えることで,継続SACがエピソディックなSACと同等以上の性能を発揮することを示す。
以上の結果から,SACアルゴリズムにおける状態空間の探索に有効であることが示唆され,エボディメントリセットの除去により,状態空間の探索が困難になり,学習が著しく遅れることが示唆された。
- 参考スコア(独自算出の注目度): 9.667452783738328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When creating new reinforcement learning tasks, practitioners often accelerate the learning process by incorporating into the task several accessory components, such as breaking the environment interaction into independent episodes and frequently resetting the environment. Although they can enable the learning of complex intelligent behaviors, such task accessories can result in unnatural task setups and hinder long-term performance in the real world. In this work, we explore the challenges of learning without episode terminations and robot embodiment resets using the Soft Actor-Critic (SAC) algorithm. To learn without terminations, we present a continuing version of the SAC algorithm and show that, with simple modifications to the reward functions of existing tasks, continuing SAC can perform as well as or better than episodic SAC while reducing the sensitivity of performance to the value of the discount rate $γ$. On a modified Gym Reacher task, we investigate possible explanations for the failure of continuing SAC when learning without embodiment resets. Our results suggest that embodiment resets help with exploration of the state space in the SAC algorithm, and removing embodiment resets can lead to poor exploration of the state space and failure of or significantly slower learning. Finally, on additional simulated tasks and a real-robot vision task, we show that increasing the entropy of the policy when performance trends worse or remains static is an effective intervention for recovering the performance lost due to not using embodiment resets.
- Abstract(参考訳): 新しい強化学習タスクを作成する際、実践者は、環境相互作用を独立したエピソードに分割したり、環境を頻繁にリセットしたりするなど、いくつかのコンポーネントをタスクに組み込むことで、学習プロセスを加速することが多い。
複雑な知的行動の学習を可能にすることができるが、そのようなタスクアクセサリーは不自然なタスク設定をもたらし、現実世界の長期的なパフォーマンスを阻害する可能性がある。
本研究では,SAC(Soft Actor-Critic)アルゴリズムを用いて,エピソードの終端のない学習とロボットのエボディメントリセットの課題について検討する。
そこで本研究では, SACアルゴリズムの継続バージョンを提示し, 既存のタスクの報酬関数に簡単な修正を加えることで, 継続SACは, 減価率$γ$の値に対する性能の感度を下げつつ, エピソードSACと同等以上の性能が得られることを示す。
修正したGym Reacherタスクでは, エンボディメントのリセットを伴わない学習において, SACの継続が失敗する可能性について検討する。
以上の結果から,SACアルゴリズムにおける状態空間の探索に有効であることが示唆され,エボディメントリセットの除去により,状態空間の探索が困難になり,学習の失敗が著しく遅くなる可能性が示唆された。
最後に、さらにシミュレーションタスクと実ロボットビジョンタスクにおいて、性能の悪化や静的な状態が続くとポリシーのエントロピーを増大させることが、エボディメントリセットを使わずに失ったパフォーマンスを回復するための効果的な介入であることを示す。
関連論文リスト
- Dense Dynamics-Aware Reward Synthesis: Integrating Prior Experience with Demonstrations [24.041217922654738]
連続制御問題はスパース・リワード強化学習(RL)タスクとして定式化することができる。
オンラインRLメソッドは、各新しいタスクを解決するために、状態空間を自動的に探索することができる。
しかしながら、非ゼロ報酬につながる行動列の発見は、タスクの水平線が増加するにつれて指数関数的に難しくなる。
本稿では,1)タスク非依存の事前データセットに含まれる情報を抽出し,2)少数のタスク固有の専門家によるデモンストレーションを行う,体系的な報酬形成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-02T04:37:12Z) - Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays [41.52768902667611]
強化学習(Reinforcement Learning, RL)は、事象と知覚知覚の間の遅延の一般的な場合において困難である。
本稿では、短時間の遅延を含む補助的なタスクを活用して、長時間の遅延でRLを高速化する、Auxiliary-Delayed Reinforcement Learning (AD-RL) 法を提案する。
具体的には、AD-RLは短い遅延に対する値関数を学習し、ブートストラップとポリシー改善技術を用いて長い遅延に調整する。
論文 参考訳(メタデータ) (2024-02-05T16:11:03Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - LECO: Learnable Episodic Count for Task-Specific Intrinsic Reward [18.876996382063517]
エピソードカウントは、単純だが効果的な本質的なモチベーションを、まばらな報酬を伴う強化学習のために設計するために広く用いられている。
本稿では,難解な探索問題において,タスク固有の固有報酬として効率的に機能する,学習可能なハッシュベースのエピソードカウントを提案する。
論文 参考訳(メタデータ) (2022-10-11T12:34:49Z) - Adaptable Automation with Modular Deep Reinforcement Learning and Policy
Transfer [8.299945169799795]
本稿では,タスクのモジュール化と伝達学習の概念に基づいて,ハイパーアクタソフトアクタクリティカル(HASAC)RLフレームワークを開発し,検証する。
HASACフレームワークは、新しい仮想ロボット操作ベンチマークであるMeta-Worldでテストされている。
数値実験により、HASACは、報酬値、成功率、タスク完了時間の観点から、最先端の深部RLアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-27T03:09:05Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。