論文の概要: Task-Centric Policy Optimization from Misaligned Motion Priors
- arxiv url: http://arxiv.org/abs/2601.19411v2
- Date: Tue, 03 Feb 2026 09:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.794899
- Title: Task-Centric Policy Optimization from Misaligned Motion Priors
- Title(参考訳): ミスアライメント動作先からのタスク中心ポリシー最適化
- Authors: Ziang Zheng, Kai Feng, Yi Nie, Shentao Qin,
- Abstract要約: 共等目的ではなく条件付き正規化器として模倣を扱うタスクプライオリティ逆模倣フレームワークを提案する。
我々は,勾配の衝突とタスクプライオリティの定常点の理論解析を行い,ヒューマノイド制御実験による評価を行った。
- 参考スコア(独自算出の注目度): 5.008550719179743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humanoid control often leverages motion priors from human demonstrations to encourage natural behaviors. However, such demonstrations are frequently suboptimal or misaligned with robotic tasks due to embodiment differences, retargeting errors, and task-irrelevant variations, causing naïve imitation to degrade task performance. Conversely, task-only reinforcement learning admits many task-optimal solutions, often resulting in unnatural or unstable motions. This exposes a fundamental limitation of linear reward mixing in adversarial imitation learning. We propose \emph{Task-Centric Motion Priors} (TCMP), a task-priority adversarial imitation framework that treats imitation as a conditional regularizer rather than a co-equal objective. TCMP maximizes task improvement while incorporating imitation signals only when they are compatible with task progress, yielding an adaptive, geometry-aware update that preserves task-feasible descent and suppresses harmful imitation under misalignment. We provide theoretical analysis of gradient conflict and task-priority stationary points, and validate our claims through humanoid control experiments demonstrating robust task performance with consistent motion style under noisy demonstrations.
- Abstract(参考訳): ヒューマノイドの制御は、人間の動作を促進させるために、人間のデモからの動作の先行をしばしば活用する。
しかしながら、このようなデモンストレーションは、実施の違い、再ターゲットエラー、タスク非関連のバリエーションなどにより、ロボットタスクに最適でないか、あるいは不一致であることが多く、ナイーブの模倣がタスクパフォーマンスを低下させる原因となっている。
逆に、タスクのみの強化学習は多くのタスク最適解を認め、しばしば不自然あるいは不安定な動作をもたらす。
これは、逆模倣学習における線形報酬混合の基本的な制限を明らかにする。
共等目的ではなく条件付き正規化として模倣を扱うタスクプライオリティ逆転模倣フレームワークである 'emph{Task-Centric Motion Priors} (TCMP) を提案する。
TCMPは、タスク進行と互換性がある場合にのみ模倣信号を組み込んでタスク改善を最大化し、タスク実現可能な降下を保ち、誤調整の下で有害な模倣を抑制する適応的幾何対応更新を提供する。
本研究では, 騒音下での安定な動作スタイルで頑健なタスク性能を示すヒューマノイド制御実験により, 勾配競合とタスク優先の定常点の理論的解析を行い, その主張を検証した。
関連論文リスト
- Learning to Move in Rhythm: Task-Conditioned Motion Policies with Orbital Stability Guarantees [45.137864140049814]
我々は,学習した微分型エンコーダと超臨界ホップ分岐を結合したフレームワークであるOrbitally Stable Motion Primitives (OSMPs)を紹介する。
提案手法は,多種多様なロボットプラットフォームにまたがる広範囲なシミュレーションと実世界の実験によって検証される。
論文 参考訳(メタデータ) (2025-07-12T17:10:03Z) - MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging [29.58798660724693]
連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを順次統合する。
テスト時間連続モデルマージの新しいフレームワークであるMINGLEを提案する。
MINGLEは堅牢な一般化を実現し、忘れることを大幅に減らし、従来の最先端の手法を平均で7-9%上回っている。
論文 参考訳(メタデータ) (2025-05-17T07:24:22Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Regularized Soft Actor-Critic for Behavior Transfer Learning [10.519534498340482]
既存の模倣学習手法は主に、エージェントを実演行動に効果的に模倣することに焦点を当てている。
本稿では,主課題と模倣課題を定式化する正則化ソフトアクター・クライト法を提案する。
ビデオゲームアプリケーションに関連する連続制御タスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-27T07:52:04Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。