Fugu-MT 論文翻訳(概要): ACDC: Adaptive Curriculum Planning with Dynamic Contrastive Control for Goal-Conditioned Reinforcement Learning in Robotic Manipulation

論文の概要: ACDC: Adaptive Curriculum Planning with Dynamic Contrastive Control for Goal-Conditioned Reinforcement Learning in Robotic Manipulation

arxiv url: http://arxiv.org/abs/2603.02104v1
Date: Mon, 02 Mar 2026 17:23:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.830121
Title: ACDC: Adaptive Curriculum Planning with Dynamic Contrastive Control for Goal-Conditioned Reinforcement Learning in Robotic Manipulation
Title（参考訳）: ACDC:ロボットマニピュレーションにおけるゴール・コンディション強化学習のための動的コントラスト制御による適応的カリキュラム計画
Authors: Xuerui Wang, Guangyu Ren, Tianhong Dai, Bintao Hu, Shuangyao Huang, Wenzhang Zhang, Hengyan Liu,
Abstract要約: ACDCは、多次元適応カリキュラム(AC)計画と動的コントラスト(DC)制御を統合し、適切に設計された学習軌道に沿ってエージェントを誘導する。挑戦的なロボット操作タスクの実験は、ACDCがサンプル効率と最終タスク成功率の両方において、最先端のベースラインを一貫して上回っていることを示している。
参考スコア（独自算出の注目度）: 7.4400459176733635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Goal-conditioned reinforcement learning has shown considerable potential in robotic manipulation; however, existing approaches remain limited by their reliance on prioritizing collected experience, resulting in suboptimal performance across diverse tasks. Inspired by human learning behaviors, we propose a more comprehensive learning paradigm, ACDC, which integrates multidimensional Adaptive Curriculum (AC) Planning with Dynamic Contrastive (DC) Control to guide the agent along a well-designed learning trajectory. More specifically, at the planning level, the AC component schedules the learning curriculum by dynamically balancing diversity-driven exploration and quality-driven exploitation based on the agent's success rate and training progress. At the control level, the DC component implements the curriculum plan through norm-constrained contrastive learning, enabling magnitude-guided experience selection aligned with the current curriculum focus. Extensive experiments on challenging robotic manipulation tasks demonstrate that ACDC consistently outperforms the state-of-the-art baselines in both sample efficiency and final task success rate.
Abstract（参考訳）: 目標条件付き強化学習はロボット操作においてかなりの可能性を示しているが、既存のアプローチは、収集された経験の優先順位付けに依存しているため、様々なタスクにまたがって最適なパフォーマンスをもたらす。人間の学習行動に触発されて,多次元適応カリキュラム(AC)計画と動的コントラスト(DC)制御を統合し,エージェントをよく設計された学習軌道に沿って誘導する,より包括的な学習パラダイムであるACDCを提案する。より具体的には、計画レベルでは、ACコンポーネントは、エージェントの成功率とトレーニングの進捗に基づいて、多様性駆動の探索と品質駆動によるエクスプロイトを動的にバランスさせることで、学習カリキュラムをスケジュールする。制御レベルでは、DCコンポーネントは、標準制約付きコントラスト学習を通じてカリキュラム計画を実装し、現在のカリキュラム焦点に合わせたマグニチュード誘導体験選択を可能にする。ロボット操作タスクの挑戦に関する大規模な実験は、ACDCがサンプル効率と最終タスク成功率の両方において、最先端のベースラインを一貫して上回っていることを示している。

関連論文リスト

Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。 LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文参考訳（メタデータ） (2026-03-13T13:08:26Z)
TEACH: Temporal Variance-Driven Curriculum for Reinforcement Learning [8.366600075241847]
本稿では,目標設定RLを高速化するために,時間変数駆動型カリキュラムを用いた新しい学生-教師学習パラダイムを提案する。このフレームワークでは、教師モジュールはポリシーの信頼度スコアが最も高い時間差で目標を動的に優先順位付けする。 11種類の多様なロボット操作および迷路ナビゲーションタスクの評価を通じてこれを実証する。
論文参考訳（メタデータ） (2025-12-28T07:29:29Z)
CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent [53.56274149236814]
CARLは,多段階エージェントに適した,クリティカルアクションに着目した強化学習アルゴリズムである。 Carlは、トレーニング中のパフォーマンスと高い効率の両方を達成し、さまざまな評価設定にわたって推論を行う。
論文参考訳（メタデータ） (2025-12-04T16:15:46Z)
Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文参考訳（メタデータ） (2025-07-22T09:26:00Z)
CAIMAN: Causal Action Influence Detection for Sample-efficient Loco-manipulation [17.94272840532448]
我々は,ロボットが環境内の他のエンティティを制御できるようにする強化学習フレームワークであるCAIMANを提案する。シミュレーションにおけるCAIMANの優れたサンプル効率と多様なシナリオへの適応性を実証的に実証した。
論文参考訳（メタデータ） (2025-02-02T16:16:53Z)
Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文参考訳（メタデータ） (2022-10-23T00:45:05Z)
Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文参考訳（メタデータ） (2022-09-19T12:15:31Z)
Deep Reinforcement Learning with Adaptive Hierarchical Reward for MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation [11.638614321552616]
優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。我々は、DRLエージェントを誘導し、複数の優先順位付けされた目的を持つ操作タスクを学習するための、新しい適応階層リワード機構(AHRM)を開発した。提案手法は,JACOロボットアームを用いた多目的操作タスクにおいて検証される。
論文参考訳（メタデータ） (2022-05-26T15:44:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。