論文の概要: Diverse Offline Imitation via Fenchel Duality
- arxiv url: http://arxiv.org/abs/2307.11373v1
- Date: Fri, 21 Jul 2023 06:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 13:32:14.059194
- Title: Diverse Offline Imitation via Fenchel Duality
- Title(参考訳): フェンシェル双対性によるディバースオフライン模倣
- Authors: Marin Vlastelica, Pavel Kolev, Jin Cheng, Georg Martius
- Abstract要約: テキストオフラインスキル発見アルゴリズムを開発した。
この問題では,KL分割によって制約された相互情報目的の定式化を検討する。
私たちの主な貢献は、Fenchelの双対性、強化学習、教師なしのスキル発見を結びつけ、専門家と整合した多様なスキルを学ぶための単純なオフラインアルゴリズムを提供することです。
- 参考スコア(独自算出の注目度): 19.516871877141302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been significant recent progress in the area of unsupervised skill
discovery, with various works proposing mutual information based objectives, as
a source of intrinsic motivation. Prior works predominantly focused on
designing algorithms that require online access to the environment. In
contrast, we develop an \textit{offline} skill discovery algorithm. Our problem
formulation considers the maximization of a mutual information objective
constrained by a KL-divergence. More precisely, the constraints ensure that the
state occupancy of each skill remains close to the state occupancy of an
expert, within the support of an offline dataset with good state-action
coverage. Our main contribution is to connect Fenchel duality, reinforcement
learning and unsupervised skill discovery, and to give a simple offline
algorithm for learning diverse skills that are aligned with an expert.
- Abstract(参考訳): 教師なしスキル発見の分野では近年,本質的なモチベーションの源泉として,相互情報に基づく目的を提唱する様々な研究が目覚ましい進歩を遂げている。
先行研究は主に、環境へのオンラインアクセスを必要とするアルゴリズムの設計に重点を置いている。
これとは対照的に,我々はスキル発見アルゴリズムを開発した。
本問題定式化は,kl-divergenceによって制約される相互情報目的の最大化を考える。
より正確に言うと、制約は、適切な状態アクションカバレッジを持つオフラインデータセットのサポート内で、各スキルの状態占有率が専門家の状態占有率に近いことを保証する。
私たちの主な貢献は、Fenchelの双対性、強化学習、教師なしのスキル発見を結びつけ、専門家と整合した多様なスキルを学ぶための単純なオフラインアルゴリズムを提供することです。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - Self-QA: Unsupervised Knowledge Guided Language Model Alignment [17.436587487811387]
本稿では,従来の命令シードの実践を,膨大な量の教師なし知識で置き換えるセルフQAを紹介する。
提案手法の有効性は, 各種ドメインの教師なしコーパスを用いて実験を行い, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-05-19T18:26:26Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Domain-aware Self-supervised Pre-training for Label-Efficient Meme
Analysis [29.888546964947537]
ミーム分析のための2つの自己教師付き事前学習手法を提案する。
まず,事前学習中に,既成のマルチモーダルヘイト音声データを用いる。
第二に、複数の専門用語タスクを組み込んだ自己教師型学習を行う。
論文 参考訳(メタデータ) (2022-09-29T10:00:29Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。