論文の概要: MO2: Model-Based Offline Options
- arxiv url: http://arxiv.org/abs/2209.01947v1
- Date: Mon, 5 Sep 2022 12:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:20:41.753027
- Title: MO2: Model-Based Offline Options
- Title(参考訳): MO2: モデルベースのオフラインオプション
- Authors: Sasha Salter, Markus Wulfmeier, Dhruva Tirumala, Nicolas Heess, Martin
Riedmiller, Raia Hadsell, Dushyant Rao
- Abstract要約: 本研究では,連続状態空間上でのサンプリング効率の高いボトルネック選択検出を支援するオフライン・ヒンドサイト・フレームワークを提案する。
実験の結果,MO2の特性は必須であり,近年のオプション学習よりも性能が高いことがわかった。
- 参考スコア(独自算出の注目度): 22.89861008260233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to discover useful behaviours from past experience and transfer
them to new tasks is considered a core component of natural embodied
intelligence. Inspired by neuroscience, discovering behaviours that switch at
bottleneck states have been long sought after for inducing plans of minimum
description length across tasks. Prior approaches have either only supported
online, on-policy, bottleneck state discovery, limiting sample-efficiency, or
discrete state-action domains, restricting applicability. To address this, we
introduce Model-Based Offline Options (MO2), an offline hindsight framework
supporting sample-efficient bottleneck option discovery over continuous
state-action spaces. Once bottleneck options are learnt offline over source
domains, they are transferred online to improve exploration and value
estimation on the transfer domain. Our experiments show that on complex
long-horizon continuous control tasks with sparse, delayed rewards, MO2's
properties are essential and lead to performance exceeding recent option
learning methods. Additional ablations further demonstrate the impact on option
predictability and credit assignment.
- Abstract(参考訳): 過去の経験から有用な行動を発見し、それらを新しいタスクに移す能力は、自然の具体的知性の中核的な要素であると考えられている。
神経科学に触発され、ボトルネック状態から切り替わる行動の発見は、タスク間の最小記述長の計画を誘発するために長い間求められてきた。
以前のアプローチでは、オンライン、オンポリシー、ボトルネック状態発見、サンプル効率の制限、あるいは個別の状態アクションドメインのみをサポートしていた。
モデルベースオフラインオプション(MO2)は、連続状態空間上でのサンプリング効率の高いボトルネックオプション発見をサポートするオフラインの隠れフレームワークである。
ボトルネックのオプションがソースドメイン上でオフラインで学習されると、オンラインに転送され、トランスファードメインの探索と価値評価が向上する。
実験により, 疎度, 遅延した報酬を伴う複雑な長期連続制御タスクにおいて, MO2の特性は不可欠であり, 近年のオプション学習よりも性能が高いことがわかった。
追加のアブレーションにより、オプション予測可能性とクレジット割り当てへの影響がさらに示される。
関連論文リスト
- Offline-to-Online Multi-Agent Reinforcement Learning with Offline Value Function Memory and Sequential Exploration [40.346958259814514]
逐次探索を用いたオフライン値関数メモリ(OVMSE)と呼ばれる新しいO2O MARLフレームワークを提案する。
まず、ターゲットQ値を計算するためのオフライン値関数メモリ(OVM)機構を導入し、オフライントレーニング中に得られた知識を保存する。
第2に,O2O MARLに適した分散型シークエンシャル・エクスプロレーション(SE)戦略を提案する。
論文 参考訳(メタデータ) (2024-10-25T10:24:19Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Knockoff-Guided Feature Selection via A Single Pre-trained Reinforced
Agent [44.84307718534031]
ノックオフ機能によってガイドされる特徴選択のための革新的なフレームワークを導入し、強化学習により最適化する。
探索プロセスの有効性を向上させるために,原特徴とそれに対応する擬似ラベルを事前訓練した深部Qネットワークが用いられている。
新しいepsilon-greedy戦略を使用して、擬似ラベルからの洞察を取り入れて、特徴選択プロセスをより効果的にする。
論文 参考訳(メタデータ) (2024-03-06T19:58:19Z) - OIL-AD: An Anomaly Detection Framework for Sequential Decision Sequences [16.828732283348817]
オフライン学習に基づく異常検出(OIL-AD)と呼ばれる教師なし手法を提案する。
OIL-ADは2つの抽出された行動特徴(行動最適性と順序関連)を用いて、意思決定シーケンスの異常を検出する。
実験の結果,OIL-ADはF1スコアを最大34.8%向上し,優れたオンライン異常検出性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-07T04:06:53Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Locally Persistent Exploration in Continuous Control Tasks with Sparse
Rewards [0.0]
2つの直観に基づく新しい探索法を提案する。
次の探索アクションの選択は、環境の(マルコフの)状態だけでなく、エージェントの軌道にも依存する必要があります。
本稿では,局所的自己回避歩行の理論的特性と,短期記憶の提供能力について論じる。
論文 参考訳(メタデータ) (2020-12-26T01:30:26Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。