論文の概要: SEABO: A Simple Search-Based Method for Offline Imitation Learning
- arxiv url: http://arxiv.org/abs/2402.03807v2
- Date: Wed, 21 Feb 2024 05:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:00:53.905173
- Title: SEABO: A Simple Search-Based Method for Offline Imitation Learning
- Title(参考訳): SEABO:オフライン模倣学習のための簡易検索手法
- Authors: Jiafei Lyu, Xiaoteng Ma, Le Wan, Runze Liu, Xiu Li, Zongqing Lu
- Abstract要約: オフライン強化学習(RL)は、静的なオフラインデータセットから学習できることから、多くの注目を集めている。
本稿では,SEABOをタグ付けした単純な検索に基づくオフラインIL手法を提案する。
この結果から,SEABOは1つの専門的軌道のみを考慮し,実効性を持つオフラインRLアルゴリズムに競合する性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 57.2723889718596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) has attracted much attention due to its
ability in learning from static offline datasets and eliminating the need of
interacting with the environment. Nevertheless, the success of offline RL
relies heavily on the offline transitions annotated with reward labels. In
practice, we often need to hand-craft the reward function, which is sometimes
difficult, labor-intensive, or inefficient. To tackle this challenge, we set
our focus on the offline imitation learning (IL) setting, and aim at getting a
reward function based on the expert data and unlabeled data. To that end, we
propose a simple yet effective search-based offline IL method, tagged SEABO.
SEABO allocates a larger reward to the transition that is close to its closest
neighbor in the expert demonstration, and a smaller reward otherwise, all in an
unsupervised learning manner. Experimental results on a variety of D4RL
datasets indicate that SEABO can achieve competitive performance to offline RL
algorithms with ground-truth rewards, given only a single expert trajectory,
and can outperform prior reward learning and offline IL methods across many
tasks. Moreover, we demonstrate that SEABO also works well if the expert
demonstrations contain only observations. Our code is publicly available at
https://github.com/dmksjfl/SEABO.
- Abstract(参考訳): オフライン強化学習(rl)は、静的なオフラインデータセットから学習する能力と、環境とのインタラクションの必要性の排除によって、多くの注目を集めている。
それでも、オフラインRLの成功は、報酬ラベルを付したオフライン移行に大きく依存している。
実際には、しばしば報酬関数を手作りする必要があるが、それは時に困難、労働集約的、あるいは非効率である。
この課題に取り組むために,我々はオフライン模倣学習(il)設定に着目し,専門家データとラベルなしデータに基づいて報奨機能を得ることを目標とした。
そこで本研究では,検索ベースのオフラインil手法であるtagged seaboを提案する。
SEABOは、専門家によるデモンストレーションにおいて、隣人に近い移行に対してより大きな報酬を割り当て、そうでなければ、すべて教師なしの学習方法で、より小さな報酬を割り当てる。
様々なD4RLデータセットに対する実験結果から、SEABOは1つの専門的軌道のみを与えられた、オフラインRLアルゴリズムに対する競合的な性能を達成することができ、多くのタスクにおける事前報酬学習やオフラインILメソッドよりも優れることが示された。
また,専門家による実証実験が観察のみを含む場合,SEABOは有効であることを示す。
私たちのコードはhttps://github.com/dmksjfl/SEABO.comで公開されています。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Align Your Intents: Offline Imitation Learning via Optimal Transport [3.1728695158666396]
模擬エージェントは,専門家の観察からのみ,望ましい行動を学ぶことができることを示す。
AILOT法では,データに空間距離を交互に組み込んだインテントの形で,状態の特殊表現を行う。
AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れていることを報告した。
論文 参考訳(メタデータ) (2024-02-20T14:24:00Z) - CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning [31.49713012907863]
textbfCalibrated textbfLatent gtextbfUidanctextbfE (CLUE)を導入する。
スパース逆オフラインRLタスク、オフライン模倣学習(IL)タスク、教師なしオフラインRLタスクにおいて、エキスパート主導の本質的な報酬をインスタンス化する。
論文 参考訳(メタデータ) (2023-06-23T09:57:50Z) - Optimal Transport for Offline Imitation Learning [31.218468923400373]
オフライン強化学習(RL)は、実環境と対話することなく、優れた意思決定ポリシーを学習するための有望なフレームワークである。
オフライントラジェクトリに報酬を割り当てるアルゴリズムであるOptimal Transport Reward labeling (OTR)を導入する。
単一実演によるOTRは、オフラインRLの性能と地道的な報酬とを一貫して一致させることができることを示す。
論文 参考訳(メタデータ) (2023-03-24T12:45:42Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。