論文の概要: Balancing Both Behavioral Quality and Diversity in Unsupervised Skill Discovery
- arxiv url: http://arxiv.org/abs/2309.17203v2
- Date: Sun, 19 May 2024 10:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 00:30:29.342880
- Title: Balancing Both Behavioral Quality and Diversity in Unsupervised Skill Discovery
- Title(参考訳): 教師なしスキル発見における行動品質と多様性のバランス
- Authors: Xin Liu, Yaran Chen, Dongbin Zhao,
- Abstract要約: この作業はIEEEに提出され、出版される可能性がある。著作権は通知なしで転送され、その後、このバージョンはアクセスできなくなる。
textbfContrastive textbfmulti-objective textbfSkill textbfDiscovery textbf(ComSD)を提案する。
- 参考スコア(独自算出の注目度): 12.277005054008017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible. Unsupervised skill discovery seeks to dig out diverse and exploratory skills without extrinsic reward, with the discovered skills efficiently adapting to multiple downstream tasks in various ways. However, recent advanced methods struggle to well balance behavioral exploration and diversity, particularly when the agent dynamics are complex and potential skills are hard to discern (e.g., robot behavior discovery). In this paper, we propose \textbf{Co}ntrastive \textbf{m}ulti-objective \textbf{S}kill \textbf{D}iscovery \textbf{(ComSD)} which discovers exploratory and diverse behaviors through a novel intrinsic incentive, named contrastive multi-objective reward. It contains a novel diversity reward based on contrastive learning to effectively drive agents to discern existing skills, and a particle-based exploration reward to access and learn new behaviors. Moreover, a novel dynamic weighting mechanism between the above two rewards is proposed for diversity-exploration balance, which further improves behavioral quality. Extensive experiments and analysis demonstrate that ComSD can generate diverse behaviors at different exploratory levels for complex multi-joint robots, enabling state-of-the-art performance across 32 challenging downstream adaptation tasks, which recent advanced methods cannot. Codes will be opened after publication.
- Abstract(参考訳): この研究はIEEEに提出された。
著作権は無通知で転送され、その後、このバージョンはアクセスできなくなる。
教師なしのスキル発見は、様々な方法で複数の下流タスクに効率よく適応し、外因的な報酬なしに多様な探索スキルを掘り下げようとしている。
しかし、最近の高度な手法は、特にエージェントのダイナミクスが複雑で潜在的なスキルが識別しにくい場合(例えば、ロボットの行動発見)に、行動探索と多様性のバランスをよく保つのに苦労している。
本稿では,新しい本質的なインセンティブによって探索的かつ多様な振る舞いを発見できる,コントラッシブ多目的報酬(tratrative multi-jective reward)を提案する。
これには、エージェントが既存のスキルを効果的に識別するための対照的な学習に基づく新しい多様性報酬と、新しい行動にアクセスして学習するための粒子ベースの探索報酬が含まれる。
さらに, この2つの報酬間の動的重み付け機構を多様性-探索バランスに提案し, 行動の質をさらに向上させる。
大規模な実験と分析により、ComSDは複雑な多関節ロボットの探索レベルが異なる多様な振る舞いを生成できることが証明された。
コードは公開後に公開される。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning [8.280943341629161]
マルチエージェントシステムにおける振る舞いの不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。
我々は、このパラダイムが探索フェーズのブートストラップにどのように使用できるかを示し、最適なポリシーを高速に見つける。
論文 参考訳(メタデータ) (2023-05-03T13:58:13Z) - Controlled Diversity with Preference : Towards Learning a Diverse Set of
Desired Skills [15.187171070594935]
エージェントが多様かつ望ましいスキルのセットを学ぶための協調的なヒューマンガイド機構である制御された多様性と優先度(CDP)を提案する。
鍵となる原則は、軌道上の人間の嗜好ラベルを用いて訓練された嗜好モデルに従って、好まれる領域にスキルの発見を制限することである。
2次元ナビゲーションとMujoco環境に対する我々のアプローチを評価し、多様な、しかし望ましいスキルを発見できることを実証した。
論文 参考訳(メタデータ) (2023-03-07T03:37:47Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文 参考訳(メタデータ) (2021-07-27T13:30:07Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。