論文の概要: SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations
- arxiv url: http://arxiv.org/abs/2505.02094v1
- Date: Sun, 04 May 2025 13:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.42262
- Title: SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations
- Title(参考訳): SkillMimic-V2:スパースとノイズによるロバストと一般化可能なインタラクションスキルの学習
- Authors: Runyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen,
- Abstract要約: インタラクション実証(Reinforcement Demonstration, RLID)からの強化学習における根本的な課題に対処する。
既存のデータ収集アプローチはスパース、非接続、ノイズのトラジェクトリを生成し、スキルのバリエーションとトランジションの完全なスペクトルをキャプチャできない。
本稿では,実証技術間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と,実証地区内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 68.9300049150948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address a fundamental challenge in Reinforcement Learning from Interaction Demonstration (RLID): demonstration noise and coverage limitations. While existing data collection approaches provide valuable interaction demonstrations, they often yield sparse, disconnected, and noisy trajectories that fail to capture the full spectrum of possible skill variations and transitions. Our key insight is that despite noisy and sparse demonstrations, there exist infinite physically feasible trajectories that naturally bridge between demonstrated skills or emerge from their neighboring states, forming a continuous space of possible skill variations and transitions. Building upon this insight, we present two data augmentation techniques: a Stitched Trajectory Graph (STG) that discovers potential transitions between demonstration skills, and a State Transition Field (STF) that establishes unique connections for arbitrary states within the demonstration neighborhood. To enable effective RLID with augmented data, we develop an Adaptive Trajectory Sampling (ATS) strategy for dynamic curriculum generation and a historical encoding mechanism for memory-dependent skill learning. Our approach enables robust skill acquisition that significantly generalizes beyond the reference demonstrations. Extensive experiments across diverse interaction tasks demonstrate substantial improvements over state-of-the-art methods in terms of convergence stability, generalization capability, and recovery robustness.
- Abstract(参考訳): 我々は,Reinforcement Learning from Interaction Demonstration (RLID) における基本的課題に対処する。
既存のデータ収集アプローチは価値あるインタラクションのデモンストレーションを提供するが、多くの場合、スパース、非接続、ノイズの多い軌跡を発生させ、スキルのバリエーションとトランジションの完全なスペクトルを捉えない。
私たちの重要な洞察は、騒々しくまばらなデモンストレーションにもかかわらず、実証されたスキルの間に自然に橋渡ししたり、隣の状態から現れて、スキルのバリエーションと移行が可能な連続的な空間を形成する、無限に実現可能な軌道が存在します。
この知見に基づいて、デモスキル間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と、デモエリア内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
拡張データを用いた効果的なRLIDを実現するために,動的カリキュラム生成のための適応軌道サンプリング(ATS)戦略と,メモリに依存したスキル学習のための歴史的符号化機構を開発する。
当社のアプローチは、基準実証を超えて大幅に一般化した、堅牢なスキル獲得を可能にする。
多様な相互作用タスクにわたる広範な実験は、収束安定性、一般化能力、回復堅牢性の観点から、最先端の手法よりも大幅に改善されている。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Unsupervised Representation Learning of Complex Time Series for Maneuverability State Identification in Smart Mobility [0.0]
スマートモビリティでは、操縦パターンのような行動の時間的ダイナミクスを提供する上で、MSSは重要な役割を果たす。
本研究では,センサを用いた車両から収集したMSSデータのモデル化に関わる課題に対処することを目的とする。
我々の目標は、スマートモビリティにおける操作状態の特定における2つの異なる教師なし表現学習手法の有効性を検討することである。
論文 参考訳(メタデータ) (2024-08-26T15:16:18Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - Sequential Neural Barriers for Scalable Dynamic Obstacle Avoidance [7.375976854181687]
SNCBF(Sequential Neural Control Barrier Model)の合成学習法を提案する。
複数の動的障害物の空間的相互作用パターンを分解し,各障害物の状態列を通じて予測することができる。
提案手法の利点は,既存の手法と比較して動的衝突回避を改善することである。
論文 参考訳(メタデータ) (2023-07-06T14:24:17Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。