Fugu-MT 論文翻訳(概要): Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

論文の概要: Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

arxiv url: http://arxiv.org/abs/2603.05113v1
Date: Thu, 05 Mar 2026 12:34:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.221673
Title: Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics
Title（参考訳）: タスクと行動の疎結合:ロボットの強化学習における2段階のリワードカリキュラム
Authors: Kilian Freitag, Knut Åkesson, Morteza Haghir Chehreghani,
Abstract要約: 本稿では,タスク固有の目的を行動用語から切り離す2段階の報酬カリキュラムを提案する。提案手法では,タスクのみの報酬関数でエージェントを訓練し,効果的な探索を確実にする。我々は,DeepMind Control Suite,ManiSkill3,および補助的行動目的を含む移動ロボット環境に対するアプローチを検証する。
参考スコア（独自算出の注目度）: 7.115267332079192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Reinforcement Learning is a promising tool for robotic control, yet practical application is often hindered by the difficulty of designing effective reward functions. Real-world tasks typically require optimizing multiple objectives simultaneously, necessitating precise tuning of their weights to learn a policy with the desired characteristics. To address this, we propose a two-stage reward curriculum where we decouple task-specific objectives from behavioral terms. In our method, we first train the agent on a simplified task-only reward function to ensure effective exploration before introducing the full reward that includes auxiliary behavior-related terms such as energy efficiency. Further, we analyze various transition strategies and demonstrate that reusing samples between phases is critical for training stability. We validate our approach on the DeepMind Control Suite, ManiSkill3, and a mobile robot environment, modified to include auxiliary behavioral objectives. Our method proves to be simple yet effective, substantially outperforming baselines trained directly on the full reward while exhibiting higher robustness to specific reward weightings.
Abstract（参考訳）: 深層強化学習(Deep Reinforcement Learning)はロボット制御のための有望なツールである。現実のタスクは通常、複数の目的を同時に最適化することを必要とし、望ましい特性を持つポリシーを学ぶために、その重みを正確に調整する必要がある。そこで本稿では,タスク固有の目的を行動用語から切り離す2段階の報酬カリキュラムを提案する。本手法では, エネルギー効率などの補助的行動関連用語を含む全報酬を導入する前に, エージェントを簡易なタスク専用報酬関数で訓練し, 有効探索を確実にする。さらに, 様々な遷移戦略を解析し, 相間のサンプル再利用がトレーニング安定に重要であることを示す。我々は,DeepMind Control Suite,ManiSkill3,および補助的行動目的を含む移動ロボット環境に対するアプローチを検証する。本手法は, 報酬重み付けに高いロバスト性を示しながら, 全報酬に基づいて直接訓練したベースラインを著しく上回り, 単純かつ効果的であることが証明された。

関連論文リスト

Reward-Conditioned Reinforcement Learning [56.417273471201845]
Reward-Conditioned Reinforcement Learning (RCRL) は、報酬仕様のファミリーを最適化するために単一のエージェントを訓練するフレームワークである。 RCRLは、報酬パラメータ化のエージェントを条件付け、共有されたリプレイデータから複数の報酬目標を学習する。その結果、RCRLはシングルタスクトレーニングの単純さを犠牲にすることなく、堅牢でステアブルなポリシを学習するためのスケーラブルなメカニズムを提供することを示した。
論文参考訳（メタデータ） (2026-03-05T11:29:17Z)
Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
本稿では,まず簡単な報奨関数を最大化し,次に完全かつ複雑な報奨に遷移する2段階の報奨カリキュラムを提案する。我々はDeepMindコントロールスイート上で,報酬定義に付加的な制約項を含むように修正した手法を評価する。以上の結果から, 複雑な報酬を伴う環境において, 効率的かつ安定したRLに対する2段階報酬キュリキュラの可能性が示された。
論文参考訳（メタデータ） (2024-10-22T08:07:44Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Deep Reinforcement Learning with Adaptive Hierarchical Reward for MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation [11.638614321552616]
優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。我々は、DRLエージェントを誘導し、複数の優先順位付けされた目的を持つ操作タスクを学習するための、新しい適応階層リワード機構(AHRM)を開発した。提案手法は,JACOロボットアームを用いた多目的操作タスクにおいて検証される。
論文参考訳（メタデータ） (2022-05-26T15:44:31Z)
Learning from Guided Play: A Scheduled Hierarchical Approach for Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文参考訳（メタデータ） (2021-12-16T14:58:08Z)
Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文参考訳（メタデータ） (2021-04-20T18:16:21Z)
Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文参考訳（メタデータ） (2020-06-17T03:58:25Z)
Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文参考訳（メタデータ） (2020-04-27T17:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。