論文の概要: Diverse Offline Imitation Learning
- arxiv url: http://arxiv.org/abs/2307.11373v2
- Date: Mon, 23 Oct 2023 17:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:11:09.757861
- Title: Diverse Offline Imitation Learning
- Title(参考訳): 多様なオフライン模倣学習
- Authors: Marin Vlastelica, Jin Cheng, Georg Martius, Pavel Kolev
- Abstract要約: 教師なしスキル発見のための原則付きオフラインアルゴリズムを提案する。
私たちの主な分析的貢献は、フェンシェルの双対性、強化学習、教師なしスキル発見を結びつけることです。
標準オフラインベンチマークD4RLにおける本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 25.957862896834545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been significant recent progress in the area of unsupervised skill
discovery, utilizing various information-theoretic objectives as measures of
diversity. Despite these advances, challenges remain: current methods require
significant online interaction, fail to leverage vast amounts of available
task-agnostic data and typically lack a quantitative measure of skill utility.
We address these challenges by proposing a principled offline algorithm for
unsupervised skill discovery that, in addition to maximizing diversity, ensures
that each learned skill imitates state-only expert demonstrations to a certain
degree. Our main analytical contribution is to connect Fenchel duality,
reinforcement learning, and unsupervised skill discovery to maximize a mutual
information objective subject to KL-divergence state occupancy constraints.
Furthermore, we demonstrate the effectiveness of our method on the standard
offline benchmark D4RL and on a custom offline dataset collected from a 12-DoF
quadruped robot for which the policies trained in simulation transfer well to
the real robotic system.
- Abstract(参考訳): 多様な情報理論の目的を多様性の尺度として活用し、教師なしのスキル発見の領域では近年大きく進歩している。
現在の方法は、重要なオンラインインタラクションを必要とし、膨大な量のタスクに依存しないデータを活用できず、一般的にはスキルの有用性の定量的指標が欠如している。
我々は,非教師付きスキル発見のための原則付きオフラインアルゴリズムを提案することで,これらの課題に対処し,多様性を最大化するとともに,各学習スキルが状態限定のエキスパートデモンストレーションをある程度模倣することを保証する。
本研究の主な分析的貢献は、フェンシェル双対性、強化学習、教師なしスキル発見を結合し、kl-divergence状態の制約を受ける相互情報目標を最大化することである。
さらに,本手法の標準オフラインベンチマークD4RLと,シミュレーションで訓練されたポリシーを実際のロボットシステムに適切に伝達する12-DoF四足歩行ロボットから収集したカスタムオフラインデータセットに対する有効性を示す。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - Self-QA: Unsupervised Knowledge Guided Language Model Alignment [17.436587487811387]
本稿では,従来の命令シードの実践を,膨大な量の教師なし知識で置き換えるセルフQAを紹介する。
提案手法の有効性は, 各種ドメインの教師なしコーパスを用いて実験を行い, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-05-19T18:26:26Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Domain-aware Self-supervised Pre-training for Label-Efficient Meme
Analysis [29.888546964947537]
ミーム分析のための2つの自己教師付き事前学習手法を提案する。
まず,事前学習中に,既成のマルチモーダルヘイト音声データを用いる。
第二に、複数の専門用語タスクを組み込んだ自己教師型学習を行う。
論文 参考訳(メタデータ) (2022-09-29T10:00:29Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。