論文の概要: GO-DICE: Goal-Conditioned Option-Aware Offline Imitation Learning via
Stationary Distribution Correction Estimation
- arxiv url: http://arxiv.org/abs/2312.10802v1
- Date: Sun, 17 Dec 2023 19:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:34:55.473007
- Title: GO-DICE: Goal-Conditioned Option-Aware Offline Imitation Learning via
Stationary Distribution Correction Estimation
- Title(参考訳): go-dice: 定常分布補正推定による目標条件付きオプションアウェアオフライン模倣学習
- Authors: Abhinav Jain, Vaibhav Unhelkar
- Abstract要約: GO-DICEはゴール条件のロングホライゾンシーケンシャルタスクのためのオフラインIL技術である。
拡張的なDICEファミリーの技法に触発された政策学習は、静止分布の空間内で両方のレベルが成立する。
実験結果はGO-DICEが最近のベースラインより優れていることを裏付けるものである。
- 参考スコア(独自算出の注目度): 1.4703485217797363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline imitation learning (IL) refers to learning expert behavior solely
from demonstrations, without any additional interaction with the environment.
Despite significant advances in offline IL, existing techniques find it
challenging to learn policies for long-horizon tasks and require significant
re-training when task specifications change. Towards addressing these
limitations, we present GO-DICE an offline IL technique for goal-conditioned
long-horizon sequential tasks. GO-DICE discerns a hierarchy of sub-tasks from
demonstrations and uses these to learn separate policies for sub-task
transitions and action execution, respectively; this hierarchical policy
learning facilitates long-horizon reasoning. Inspired by the expansive
DICE-family of techniques, policy learning at both the levels transpires within
the space of stationary distributions. Further, both policies are learnt with
goal conditioning to minimize need for retraining when task goals change.
Experimental results substantiate that GO-DICE outperforms recent baselines, as
evidenced by a marked improvement in the completion rate of increasingly
challenging pick-and-place Mujoco robotic tasks. GO-DICE is also capable of
leveraging imperfect demonstration and partial task segmentation when
available, both of which boost task performance relative to learning from
expert demonstrations alone.
- Abstract(参考訳): オフライン模倣学習(il)とは、デモのみから専門家の振る舞いを学習することであり、環境と追加のやりとりはしない。
オフラインilの大幅な進歩にもかかわらず、既存の技術では、長いホリゾンタスクのポリシーを学ぶのが難しく、タスク仕様が変わると、再トレーニングが必要となる。
これらの制約に対処するために,ゴール条件の長い連続タスクに対して,GO-DICE を用いたオフライン IL 技術を提案する。
go-diceはデモからサブタスクの階層を識別し、これらを使用してサブタスク遷移とアクション実行の別々のポリシーを学習する。
拡張的なDICEファミリーの技法に触発された政策学習は、静止分布の空間内で両方のレベルが成立する。
さらに、両方のポリシーは目標条件で学習され、タスク目標が変更されたときの再トレーニングの必要性を最小限に抑える。
実験結果は、GO-DICEが最近のベースラインより優れていることを裏付けるものであり、ますます困難なピックアップ・アンド・プレース・ロボティクスタスクの完成率が著しく向上していることが証明されている。
GO-DICEは、利用可能なときに不完全なデモンストレーションと部分的なタスクセグメンテーションを利用することもできる。
関連論文リスト
- Hierarchical Orchestra of Policies [1.6574413179773757]
HOPは、現在の観察と、成功したタスクでこれまで遭遇した観察との類似度基準に基づいて、ポリシーの階層を動的に形成する。
HOPはタスクラベリングを必要としないため、タスク間のバウンダリがあいまいな環境でのロバストな適応を可能にする。
本実験は,複数のタスクにまたがってプロシージャ的に生成した環境下で実施し,HOPがタスク間の知識を維持する上で,ベースライン法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-11-05T11:13:09Z) - Universal Visual Decomposer: Long-Horizon Manipulation Made Easy [54.93745986073738]
現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
従来のタスク分解手法では、タスク固有の知識が必要であり、計算集約的であり、新しいタスクに容易に適用できない。
視覚的長時間水平方向操作のためのオフザシェルフタスク分解法であるUniversal Visual Decomposer (UVD)を提案する。
シミュレーションと実世界のタスクの両方でUVDを広範囲に評価し、すべての場合において、UVDは模倣と強化学習設定でベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-12T17:59:41Z) - An Offline Time-aware Apprenticeship Learning Framework for Evolving
Reward Functions [19.63724590121946]
Apprenticeship Learning(AL)は、専門家のデモンストレーションを観察し、模倣することによって効果的な意思決定ポリシーを誘導するプロセスである。
既存のALアプローチの多くは、ヘルスケアのような人間中心のタスクで一般的に見られる報酬関数の進化に対応するように設計されていない。
本稿では,時間を考慮した階層型EMエネルギベースサブトラジェクトリ(theMES)ALフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-15T23:51:07Z) - Automaton-Guided Curriculum Generation for Reinforcement Learning Agents [14.20447398253189]
Automaton-Guided Curriculum Learning (AGCL) は、DAG(Directed Acyclic Graphs)の形式で、対象タスクのためのカリキュラムを自動生成する新しい方法である。
AGCL は決定論的有限オートマトン (DFA) の形式で仕様を符号化し、DFA とオブジェクト指向 MDP 表現を使ってカリキュラムを DAG として生成する。
グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生み出すカリキュラムが時間と閾値のパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2023-04-11T15:14:31Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。