Fugu-MT 論文翻訳(概要): ComSD: Balancing Behavioral Quality and Diversity in Unsupervised Skill Discovery

論文の概要: ComSD: Balancing Behavioral Quality and Diversity in Unsupervised Skill Discovery

arxiv url: http://arxiv.org/abs/2309.17203v1
Date: Fri, 29 Sep 2023 12:53:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 13:55:11.677163
Title: ComSD: Balancing Behavioral Quality and Diversity in Unsupervised Skill Discovery
Title（参考訳）: ComSD:教師なしスキル発見における行動品質と多様性のバランス
Authors: Xin Liu, Yaran Chen, Dongbin Zhao
Abstract要約: 本稿では,Contrastive Multi-Objectives Skill Discovery (ComSD)を提案する。 ComSDは、より合理的なMI推定と動的に重み付けされた本質的な報酬によって、発見された行動の質と多様性の対立を緩和しようとする。 ComSDは最先端の適応性能を示し、近年の高度な技術発見方法よりも優れています。
参考スコア（独自算出の注目度）: 13.79812334223457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning diverse and qualified behaviors for utilization and adaptation without supervision is a key ability of intelligent creatures. Ideal unsupervised skill discovery methods are able to produce diverse and qualified skills in the absence of extrinsic reward, while the discovered skill set can efficiently adapt to downstream tasks in various ways. Maximizing the Mutual Information (MI) between skills and visited states can achieve ideal skill-conditioned behavior distillation in theory. However, it's difficult for recent advanced methods to well balance behavioral quality (exploration) and diversity (exploitation) in practice, which may be attributed to the unreasonable MI estimation by their rigid intrinsic reward design. In this paper, we propose Contrastive multi-objectives Skill Discovery (ComSD) which tries to mitigate the quality-versus-diversity conflict of discovered behaviors through a more reasonable MI estimation and a dynamically weighted intrinsic reward. ComSD proposes to employ contrastive learning for a more reasonable estimation of skill-conditioned entropy in MI decomposition. In addition, a novel weighting mechanism is proposed to dynamically balance different entropy (in MI decomposition) estimations into a novel multi-objective intrinsic reward, to improve both skill diversity and quality. For challenging robot behavior discovery, ComSD can produce a qualified skill set consisting of diverse behaviors at different activity levels, which recent advanced methods cannot. On numerical evaluations, ComSD exhibits state-of-the-art adaptation performance, significantly outperforming recent advanced skill discovery methods across all skill combination tasks and most skill finetuning tasks. Codes will be released at https://github.com/liuxin0824/ComSD.
Abstract（参考訳）: 監視なしで利用と適応のために多様で適格な行動を学ぶことは、知的生物の重要な能力である。理想的な教師なしのスキル発見手法は、外因的な報酬がなければ多種多様なスキルを生み出すことができ、発見されたスキルセットは下流のタスクに様々な方法で効率的に適応することができる。技術と訪問国間の相互情報(MI)の最大化は、理論上理想的なスキル条件の行動蒸留を実現することができる。しかし,近年の手法では,厳密な本質的な報酬設計による不合理なMI推定に起因して,行動品質(探索)と多様性(探索)のバランスをとることは困難である。本稿では,より合理的なMI推定と動的に重み付けされた本質的な報酬により,発見行動の品質と多様性の対立を軽減するためのコントラスト多目的スキル発見(ComSD)を提案する。 ComSDは、MI分解におけるスキル条件付きエントロピーをより合理的に推定するために、コントラスト学習を採用することを提案する。さらに,異なるエントロピー(mi分解)推定を,新たな多目的固有報酬に動的にバランスさせ,スキルの多様性と品質を向上させる新しい重み付け機構を提案する。挑戦的なロボット行動発見のために、ComSDは様々な活動レベルにおける多様な行動からなる資格あるスキルセットを生成することができる。数値評価において、comsdは最先端の適応性能を示し、スキルの組み合わせタスクやほとんどのスキルの微調整タスクにおいて、最近の高度なスキル発見手法を著しく上回っている。コードはhttps://github.com/liuxin0824/ComSDでリリースされる。

関連論文リスト

Unsupervised Skill Discovery through Skill Regions Differentiation [6.088346462603191]
教師なし強化学習(英語: Unsupervised Reinforcement Learning, RL)は、下流タスクの学習を加速できる多様な行動を発見することを目的としている。本稿では,他のスキルの探索領域からの1つのスキルの状態密度のずれを最大化する新しいスキル発見目標を提案する。また、学習したオートエンコーダに基づいて、コンパクトな潜在空間におけるカウントベースの探索に類似した本質的な報酬を定式化する。
論文参考訳（メタデータ） (2025-06-17T11:30:04Z)
AMPED: Adaptive Multi-objective Projection for balancing Exploration and skill Diversification [5.404569468550549]
本稿では,探索とスキル多様化のバランスをとるための適応多目的投影法(AMPED)を提案する。 AMPEDは、探索とスキル多様性の目標をバランスさせ、対立を緩和し、チューニングへの依存を減らすための勾配手術技術を導入している。提案手法は,様々なベンチマークにおいてSBRLベースラインを超えている。
論文参考訳（メタデータ） (2025-06-06T10:59:39Z)
Human-Aligned Skill Discovery: Balancing Behaviour Exploration and Alignment [14.948610521764415]
我々は、より安全でより整合したスキルを発見するために、ヒューマンアライメントスキル発見(HaSD)を提案する。 HaSDはスキルの多様性と人間の価値との整合性を同時に最適化する。 2次元ナビゲーションとセーフティガイムナシウム環境の両方で有効性を示す。
論文参考訳（メタデータ） (2025-01-29T06:14:27Z)
SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。 Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文参考訳（メタデータ） (2024-10-24T04:01:59Z)
Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。 DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。 DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文参考訳（メタデータ） (2024-10-15T04:13:20Z)
Language Guided Skill Discovery [56.84356022198222]
言語ガイドスキル発見(LGSD)を導入し,スキル間の意味的多様性を最大化する。 LGSDはユーザープロンプトを入力として取り、セマンティックなスキルのセットを出力する。本研究は,LGSDにより,単にプロンプトを変更するだけで,手足のロボットが平面上の異なるユーザ意図のエリアを訪問できることを実証する。
論文参考訳（メタデータ） (2024-06-07T04:25:38Z)
DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文参考訳（メタデータ） (2023-12-10T06:03:57Z)
APART: Diverse Skill Discovery using All Pairs with Ascending Reward and DropouT [16.75358022780262]
報酬のない環境における多様なスキル発見について研究し、単純なグリッドワールド環境において可能なすべてのスキルを発見することを目的とした。この問題は、本質的な報酬と、その軌道からスキルを予測するために訓練された判別器を用いて、スキルの相互訓練として定式化される。我々の最初のソリューションは、標準の1-vs-all (softmax) 判別器を1-vs-one (all pairs) 判別器に置き換え、新しい固有報酬関数とドロップアウト正規化技術を組み合わせたものである。
論文参考訳（メタデータ） (2023-08-24T08:46:43Z)
Pre-training Multi-task Contrastive Learning Models for Scientific Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文参考訳（メタデータ） (2023-05-23T16:47:22Z)
Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文参考訳（メタデータ） (2023-05-08T06:02:11Z)
System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning [8.280943341629161]
マルチエージェントシステムにおける振る舞いの不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。 SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。我々は、このパラダイムが探索フェーズのブートストラップにどのように使用できるかを示し、最適なポリシーを高速に見つける。
論文参考訳（メタデータ） (2023-05-03T13:58:13Z)
Controlled Diversity with Preference : Towards Learning a Diverse Set of Desired Skills [15.187171070594935]
エージェントが多様かつ望ましいスキルのセットを学ぶための協調的なヒューマンガイド機構である制御された多様性と優先度(CDP)を提案する。鍵となる原則は、軌道上の人間の嗜好ラベルを用いて訓練された嗜好モデルに従って、好まれる領域にスキルの発見を制限することである。 2次元ナビゲーションとMujoco環境に対する我々のアプローチを評価し、多様な、しかし望ましいスキルを発見できることを実証した。
論文参考訳（メタデータ） (2023-03-07T03:37:47Z)
Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。 CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文参考訳（メタデータ） (2023-02-10T08:03:09Z)
Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文参考訳（メタデータ） (2022-12-08T22:34:59Z)
Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。 IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文参考訳（メタデータ） (2022-10-14T00:04:49Z)
LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。 LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文参考訳（メタデータ） (2022-05-05T10:46:16Z)
Unsupervised Reinforcement Learning for Transferable Manipulation Skill Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文参考訳（メタデータ） (2022-04-29T06:57:46Z)
Collaborative Training of Heterogeneous Reinforcement Learning Agents in Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文参考訳（メタデータ） (2022-02-24T16:15:51Z)
Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。 LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文参考訳（メタデータ） (2022-02-02T08:29:04Z)
Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-20T22:29:32Z)
Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文参考訳（メタデータ） (2021-07-27T13:30:07Z)
Discovering Generalizable Skills via Automated Generation of Diverse Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文参考訳（メタデータ） (2021-06-26T03:41:51Z)
Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。 Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文参考訳（メタデータ） (2020-05-12T17:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。