Fugu-MT 論文翻訳(概要): SLIM: Skill Learning with Multiple Critics

論文の概要: SLIM: Skill Learning with Multiple Critics

arxiv url: http://arxiv.org/abs/2402.00823v2
Date: Thu, 21 Mar 2024 10:21:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 19:17:37.198305
Title: SLIM: Skill Learning with Multiple Critics
Title（参考訳）: SLIM: 複数批判によるスキル学習
Authors: David Emukpere, Bingbing Wu, Julien Perez, Jean-Michel Renders,
Abstract要約: 自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。相互情報に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。 SLIMは,ロボット操作に特化して,スキル発見のための多批判学習手法である。
参考スコア（独自算出の注目度）: 8.645929825516818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised skill learning aims to acquire useful behaviors that leverage the underlying dynamics of the environment. Latent variable models, based on mutual information maximization, have been successful in this task but still struggle in the context of robotic manipulation. As it requires impacting a possibly large set of degrees of freedom composing the environment, mutual information maximization fails alone in producing useful and safe manipulation behaviors. Furthermore, tackling this by augmenting skill discovery rewards with additional rewards through a naive combination might fail to produce desired behaviors. To address this limitation, we introduce SLIM, a multi-critic learning approach for skill discovery with a particular focus on robotic manipulation. Our main insight is that utilizing multiple critics in an actor-critic framework to gracefully combine multiple reward functions leads to a significant improvement in latent-variable skill discovery for robotic manipulation while overcoming possible interference occurring among rewards which hinders convergence to useful skills. Furthermore, in the context of tabletop manipulation, we demonstrate the applicability of our novel skill discovery approach to acquire safe and efficient motor primitives in a hierarchical reinforcement learning fashion and leverage them through planning, significantly surpassing baseline approaches for skill discovery.
Abstract（参考訳）: 自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。相互情報の最大化に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。環境を構成する大きな自由度に影響を及ぼす必要があるため、相互情報の最大化は、有用で安全な操作行動を生み出すのに単独で失敗する。さらに、この問題に対処するためには、素直な組み合わせを通じて、スキル発見報酬を追加の報酬で増やすことで、望ましい行動を生み出すことができない可能性がある。この制限に対処するために,我々は,ロボット操作に特に焦点をあてた,スキル発見のための多批判学習アプローチであるSLIMを導入する。主な洞察は,複数の報酬関数を優雅に組み合わせるために,複数の批評家をアクタ批判的枠組みで活用することで,ロボット操作における潜時変化可能なスキル発見が大幅に向上すると同時に,有用スキルへの収束を妨げる報酬間の干渉を克服する,ということである。さらに、テーブルトップ操作の文脈では、安全で効率的なモータープリミティブを階層的な強化学習方式で獲得し、それらを計画を通じて活用し、スキル発見のためのベースラインアプローチを大幅に上回る、新しいスキル発見アプローチの適用性を示す。

関連論文リスト

Capability-Oriented Training Induced Alignment Risk [101.37328448441208]
我々は、強化学習で訓練された言語モデルが、その報酬を最大化するために欠陥を利用することを自然に学習するかどうかを考察する。我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。我々の研究結果は、将来のAIの安全作業がコンテンツモデレーションを超えて、トレーニング環境の厳格な監査と確保、および報奨メカニズム自体に拡張する必要があることを示唆している。
論文参考訳（メタデータ） (2026-02-12T16:13:14Z)
Goal-Oriented Skill Abstraction for Offline Multi-Task Reinforcement Learning [25.18006424626525]
GO-Skillは、再利用可能なスキルを抽出し、活用し、知識伝達とタスクパフォーマンスを向上させるために設計された新しいアプローチである。本稿では,目標志向のスキル抽出プロセスを通じて再利用可能なスキルを明らかにし,ベクトル量子化を活用して個別のスキルライブラリを構築する。我々はこれらのスキルを階層的な政策学習を用いて統合し、個別のスキルを動的に編成して特定のタスクを遂行するハイレベルなポリシーの構築を可能にする。
論文参考訳（メタデータ） (2025-07-09T07:54:49Z)
SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。 Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文参考訳（メタデータ） (2024-10-24T04:01:59Z)
Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。 DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。 DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文参考訳（メタデータ） (2024-10-15T04:13:20Z)
Unsupervised Skill Discovery for Robotic Manipulation through Automatic Task Generation [17.222197596599685]
本稿では,多数の自律的タスクを解くことで構成可能な振る舞いを発見するスキル学習手法を提案する。本手法は,ロボットが環境内の物体と連続的かつ堅牢に対話することを可能にするスキルを学習する。学習したスキルは、シミュレーションだけでなく、本物のロボットプラットフォーム上でも、目に見えない操作タスクのセットを解決するために使用できる。
論文参考訳（メタデータ） (2024-10-07T09:19:13Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文参考訳（メタデータ） (2023-05-08T06:02:11Z)
Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文参考訳（メタデータ） (2022-12-08T22:34:59Z)
Versatile Skill Control via Self-supervised Adversarial Imitation of Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文参考訳（メタデータ） (2022-09-16T12:49:04Z)
Unsupervised Reinforcement Learning for Transferable Manipulation Skill Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文参考訳（メタデータ） (2022-04-29T06:57:46Z)
Discovering Generalizable Skills via Automated Generation of Diverse Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文参考訳（メタデータ） (2021-06-26T03:41:51Z)
Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文参考訳（メタデータ） (2020-04-27T17:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。