Fugu-MT 論文翻訳(概要): Learning Transferable Motor Skills with Hierarchical Latent Mixture Policies

論文の概要: Learning Transferable Motor Skills with Hierarchical Latent Mixture Policies

arxiv url: http://arxiv.org/abs/2112.05062v1
Date: Thu, 9 Dec 2021 17:37:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-10 14:51:06.452746
Title: Learning Transferable Motor Skills with Hierarchical Latent Mixture Policies
Title（参考訳）: 階層的潜伏混合ポリシーを用いた学習伝達性運動スキル
Authors: Dushyant Rao, Fereshteh Sadeghi, Leonard Hasenclever, Markus Wulfmeier, Martina Zambelli, Giulia Vezzani, Dhruva Tirumala, Yusuf Aytar, Josh Merel, Nicolas Heess, and Raia Hadsell
Abstract要約: 階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
参考スコア（独自算出の注目度）: 37.09286945259353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For robots operating in the real world, it is desirable to learn reusable behaviours that can effectively be transferred and adapted to numerous tasks and scenarios. We propose an approach to learn abstract motor skills from data using a hierarchical mixture latent variable model. In contrast to existing work, our method exploits a three-level hierarchy of both discrete and continuous latent variables, to capture a set of high-level behaviours while allowing for variance in how they are executed. We demonstrate in manipulation domains that the method can effectively cluster offline data into distinct, executable behaviours, while retaining the flexibility of a continuous latent variable model. The resulting skills can be transferred and fine-tuned on new tasks, unseen objects, and from state to vision-based policies, yielding better sample efficiency and asymptotic performance compared to existing skill- and imitation-based methods. We further analyse how and when the skills are most beneficial: they encourage directed exploration to cover large regions of the state space relevant to the task, making them most effective in challenging sparse-reward settings.
Abstract（参考訳）: 現実世界で動作しているロボットには、多くのタスクやシナリオに効果的に移行し適応できる再利用可能な行動を学ぶことが望ましい。階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。既存の作業とは対照的に,本手法では離散変数と連続変数の3段階階層を活用し,高レベルの振る舞いのセットをキャプチャし,それらの実行方法のばらつきを許容する。提案手法は,連続潜伏変数モデルの柔軟性を維持しつつ,オフラインデータを独立して実行可能な動作に効果的にクラスタリングできることを示す。得られたスキルは、新しいタスク、目に見えないオブジェクト、および状態からビジョンベースのポリシーで転送および微調整され、既存のスキルおよび模倣ベースの方法と比較して、よりよいサンプル効率と漸近的なパフォーマンスが得られる。それらは、タスクに関連する州領域の広い領域をカバーするよう指示された探索を奨励し、スパース・リワード(sparse-reward)設定に挑戦するのに最も効果的である。

関連論文リスト

Enhancing Cross-task Transfer of Large Language Models via Activation Steering [75.41750053623298]
クロスタスク・イン・コンテキスト学習はタスク間で知識を伝達する直接的なソリューションを提供する。パラメータ更新や入力拡張を伴わずに、潜時空間ステアリングによりクロスタスク転送を実現することができるかを検討する。本稿では,モデルの内部アクティベーション状態を操作することで,効率的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T15:47:22Z)
Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文参考訳（メタデータ） (2025-07-17T03:08:26Z)
SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations [68.9300049150948]
インタラクション実証(Reinforcement Demonstration, RLID)からの強化学習における根本的な課題に対処する。既存のデータ収集アプローチはスパース、非接続、ノイズのトラジェクトリを生成し、スキルのバリエーションとトランジションの完全なスペクトルをキャプチャできない。本稿では,実証技術間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と,実証地区内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
論文参考訳（メタデータ） (2025-05-04T13:00:29Z)
Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Offline Learning of Controllable Diverse Behaviors [19.0544729496907]
イミテーションラーニング(IL)技術は、特定のタスクで人間の行動を再現することを目的としている。時間的一貫性と制御性に基づく新しい手法を提案する。我々は,タスクや環境の多様さに対して,最先端の手法との比較を行った。
論文参考訳（メタデータ） (2025-04-25T08:16:56Z)
On Learning Informative Trajectory Embeddings for Imitation, Classification and Regression [19.01804572722833]
実世界のシーケンシャルな意思決定タスクでは、観察された状態-行動軌跡から学ぶことは、模倣、分類、クラスタリングのようなタスクには不可欠である。本稿では,動的意思決定プロセスにおけるスキルと能力の獲得を目的とした,状態行動軌跡を潜在空間に埋め込む新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-16T06:52:58Z)
Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。 LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文参考訳（メタデータ） (2024-10-15T00:41:18Z)
Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。 CNEPは、軌道がどのモードに属するかの監督を必要としない。本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文参考訳（メタデータ） (2024-02-13T12:52:02Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Versatile Skill Control via Self-supervised Adversarial Imitation of Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文参考訳（メタデータ） (2022-09-16T12:49:04Z)
Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文参考訳（メタデータ） (2021-11-04T22:46:16Z)
TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文参考訳（メタデータ） (2021-10-27T21:05:00Z)
Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文参考訳（メタデータ） (2020-10-27T13:17:18Z)
Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文参考訳（メタデータ） (2020-07-17T12:51:42Z)
Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of Gaussian Processes [25.513074215377696]
本稿では,連続的なオンラインモデルに基づく強化学習手法を提案する。未知のタスク境界を持つタスク非依存の問題を解決するためには、事前トレーニングを必要としない。実験では,本手法は非定常タスクにおける代替手法よりも優れている。
論文参考訳（メタデータ） (2020-06-19T23:52:45Z)
Meta-Reinforcement Learning Robust to Distributional Shift via Model Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文参考訳（メタデータ） (2020-06-12T13:34:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。