Fugu-MT 論文翻訳(概要): Unsupervised Discovery of Continuous Skills on a Sphere

論文の概要: Unsupervised Discovery of Continuous Skills on a Sphere

arxiv url: http://arxiv.org/abs/2305.14377v1
Date: Sun, 21 May 2023 06:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 00:33:10.535979
Title: Unsupervised Discovery of Continuous Skills on a Sphere
Title（参考訳）: 球面上の連続的スキルの無監督発見
Authors: Takahisa Imagawa, Takuya Hiraoka, Yoshimasa Tsuruoka
Abstract要約: 球面上の連続的スキルの発見(DISCS)と呼ばれる,無限の異なるスキルを学習するための新しい手法を提案する。 DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。 DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。
参考スコア（独自算出の注目度）: 15.856188608650228
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, methods for learning diverse skills to generate various behaviors without external rewards have been actively studied as a form of unsupervised reinforcement learning. However, most of the existing methods learn a finite number of discrete skills, and thus the variety of behaviors that can be exhibited with the learned skills is limited. In this paper, we propose a novel method for learning potentially an infinite number of different skills, which is named discovery of continuous skills on a sphere (DISCS). In DISCS, skills are learned by maximizing mutual information between skills and states, and each skill corresponds to a continuous value on a sphere. Because the representations of skills in DISCS are continuous, infinitely diverse skills could be learned. We examine existing methods and DISCS in the MuJoCo Ant robot control environments and show that DISCS can learn much more diverse skills than the other methods.
Abstract（参考訳）: 近年,非教師なし強化学習の一形態として,外部報酬のない多様な行動を生成する多様なスキルの学習方法が活発に研究されている。しかし、既存の手法のほとんどは有限個の個別スキルを学習しており、学習スキルで表現できる行動の多様性は限られている。本稿では,球面上の連続的スキルの発見 (DISCS) と呼ばれる,無限個の異なるスキルを学習するための新しい手法を提案する。 DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。 DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。我々は, MuJoCo Ant ロボット制御環境における既存の手法と DISCS について検討し,DisCS が他の方法よりもはるかに多様なスキルを習得できることを示す。

関連論文リスト

Efficient Skill Discovery via Regret-Aware Optimization [37.27136009415794]
我々は、スキル生成とポリシー学習のミニマックスゲームとしてスキル発見の枠組みを定めている。本稿では,時間的表現学習に基づく後悔認識手法を提案する。提案手法は高次元環境において15%ゼロショット改善を実現する。
論文参考訳（メタデータ） (2025-06-26T06:45:59Z)
Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning [10.598207472087578]
強化学習(Reinforcement Learning, RL)の手法は通常、新しいタスクをゼロから学習する。この研究は、潜在的な原始的なスキルモーションを未知の特徴を持つ非パラメトリックな特性を持つものとしてモデル化する手法を導入する。非パラメトリックモデル、特にDirichlet Process Mixturesは、出生とマージによって強化され、スキルの多様な性質を効果的に捉えるための事前トレーニングに使用される。
論文参考訳（メタデータ） (2025-03-27T20:43:36Z)
SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。 Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文参考訳（メタデータ） (2024-10-24T04:01:59Z)
Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。 DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。 DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文参考訳（メタデータ） (2024-10-15T04:13:20Z)
Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文参考訳（メタデータ） (2024-05-25T03:07:56Z)
C$\cdot$ASE: Learning Conditional Adversarial Skill Embeddings for Physics-based Characters [49.83342243500835]
C$cdot$ASEは、物理系文字に対する条件付き適応スキル埋め込みを学習する効率的なフレームワークである。 C$cdot$ASEは、不均一なスキルモーションを、低レベル条件モデルのトレーニングのための均質なサンプルを含む別個のサブセットに分割する。スキル条件の模倣学習は、訓練後のキャラクターのスキルを明確に制御する。
論文参考訳（メタデータ） (2023-09-20T14:34:45Z)
Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文参考訳（メタデータ） (2023-05-08T06:02:11Z)
Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。 CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文参考訳（メタデータ） (2023-02-10T08:03:09Z)
Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。 Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文参考訳（メタデータ） (2022-11-23T23:31:14Z)
Discovering Generalizable Skills via Automated Generation of Diverse Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文参考訳（メタデータ） (2021-06-26T03:41:51Z)
Relative Variational Intrinsic Control [11.328970848714919]
Relative Variational Intrinsic Control(RVIC)は、エージェントが環境との関係をどのように変えるかで区別できる学習スキルを奨励します。本稿では,階層的強化学習において,既存の手法によるスキルよりもRVICのスキルが有用であることを示す。
論文参考訳（メタデータ） (2020-12-14T18:59:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。