論文の概要: Dynamic Contrastive Skill Learning with State-Transition Based Skill Clustering and Dynamic Length Adjustment
- arxiv url: http://arxiv.org/abs/2504.14805v1
- Date: Mon, 21 Apr 2025 02:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:56:21.354694
- Title: Dynamic Contrastive Skill Learning with State-Transition Based Skill Clustering and Dynamic Length Adjustment
- Title(参考訳): 状態遷移に基づくスキルクラスタリングと動的長さ調整による動的コントラストスキル学習
- Authors: Jinwoo Choi, Seung-Woo Seo,
- Abstract要約: 本稿では,スキル表現と学習を再定義する新しいフレームワークである動的コントラストスキル学習(DCSL)を提案する。
DCSLは、状態遷移に基づくスキル表現、スキル類似度関数学習、動的スキル長調整の3つの主要なアイデアを導入している。
提案手法は,特に複雑なデータセットやノイズの多いデータセットにおいて,より柔軟で適応的なスキル抽出を可能にし,既存のタスク完了と効率の手法と比較して,競争力のある性能を示す。
- 参考スコア(独自算出の注目度): 14.458170645422564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has made significant progress in various domains, but scaling it to long-horizon tasks with complex decision-making remains challenging. Skill learning attempts to address this by abstracting actions into higher-level behaviors. However, current approaches often fail to recognize semantically similar behaviors as the same skill and use fixed skill lengths, limiting flexibility and generalization. To address this, we propose Dynamic Contrastive Skill Learning (DCSL), a novel framework that redefines skill representation and learning. DCSL introduces three key ideas: state-transition based skill representation, skill similarity function learning, and dynamic skill length adjustment. By focusing on state transitions and leveraging contrastive learning, DCSL effectively captures the semantic context of behaviors and adapts skill lengths to match the appropriate temporal extent of behaviors. Our approach enables more flexible and adaptive skill extraction, particularly in complex or noisy datasets, and demonstrates competitive performance compared to existing methods in task completion and efficiency.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 様々な領域において大きな進歩を遂げてきたが, 複雑な意思決定を伴う長期タスクに拡張することは依然として困難である。
スキル学習は、アクションをハイレベルな振る舞いに抽象化することで、この問題に対処しようとする。
しかしながら、現在のアプローチでは、意味的に類似した振る舞いを同じスキルとして認識できず、一定のスキル長を使用し、柔軟性と一般化を制限している場合が多い。
そこで我々は,スキル表現と学習を再定義する新しいフレームワークである動的コントラストスキル学習(DCSL)を提案する。
DCSLは、状態遷移に基づくスキル表現、スキル類似度関数学習、動的スキル長調整の3つの主要なアイデアを導入している。
状態遷移に集中し、対照的な学習を活用することで、DCSLは行動の意味的文脈を効果的に捉え、適切な時間的行動範囲に合わせてスキル長を適用する。
提案手法は,特に複雑なデータセットやノイズの多いデータセットにおいて,より柔軟で適応的なスキル抽出を可能にし,既存のタスク完了と効率の手法と比較して,競争力のある性能を示す。
関連論文リスト
- SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation [3.1997825444285457]
動的非構造環境における現実世界のロボット操作は、進化するオブジェクト、シーン、タスクに対して生涯の適応性を必要とする。
伝統的な模倣学習は、生涯適応に不適な静的な訓練パラダイムに依存している。
我々は,ロボット操作のための新しいエンドツーエンドの階層型CILポリシーアーキテクチャである,スキル・プロンプトに基づく階層型連続模倣学習(SPECI)を提案する。
論文 参考訳(メタデータ) (2025-04-22T03:30:38Z) - Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning [10.598207472087578]
強化学習(Reinforcement Learning, RL)の手法は通常、新しいタスクをゼロから学習する。
この研究は、潜在的な原始的なスキルモーションを未知の特徴を持つ非パラメトリックな特性を持つものとしてモデル化する手法を導入する。
非パラメトリックモデル、特にDirichlet Process Mixturesは、出生とマージによって強化され、スキルの多様な性質を効果的に捉えるための事前トレーニングに使用される。
論文 参考訳(メタデータ) (2025-03-27T20:43:36Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Progressively Efficient Learning [58.6490456517954]
我々はCEIL(Communication-Efficient Interactive Learning)という新しい学習フレームワークを開発した。
CEILは、学習者と教師がより抽象的な意図を交換することで効率的にコミュニケーションする人間のようなパターンの出現につながる。
CEILで訓練されたエージェントは、新しいタスクを素早く習得し、非階層的で階層的な模倣学習を、絶対的な成功率で最大50%、20%上回った。
論文 参考訳(メタデータ) (2023-10-13T07:52:04Z) - C$\cdot$ASE: Learning Conditional Adversarial Skill Embeddings for
Physics-based Characters [49.83342243500835]
C$cdot$ASEは、物理系文字に対する条件付き適応スキル埋め込みを学習する効率的なフレームワークである。
C$cdot$ASEは、不均一なスキルモーションを、低レベル条件モデルのトレーニングのための均質なサンプルを含む別個のサブセットに分割する。
スキル条件の模倣学習は、訓練後のキャラクターのスキルを明確に制御する。
論文 参考訳(メタデータ) (2023-09-20T14:34:45Z) - Learning Temporally Extended Skills in Continuous Domains as Symbolic
Actions for Planning [2.642698101441705]
長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。
本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2022-07-11T17:13:10Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。