論文の概要: Diversify & Conquer: Outcome-directed Curriculum RL via
Out-of-Distribution Disagreement
- arxiv url: http://arxiv.org/abs/2310.19261v1
- Date: Mon, 30 Oct 2023 04:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:49:57.870396
- Title: Diversify & Conquer: Outcome-directed Curriculum RL via
Out-of-Distribution Disagreement
- Title(参考訳): diversify & conquer: out-of-distribution disagreementによる成果指向カリキュラムrl
- Authors: Daesol Cho, Seungjae Lee, and H. Jin Kim
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、エージェントがドメイン知識にアクセスせずに探索すべき非情報探索問題の課題に直面することが多い。
本研究は、D2C(Diversify for Disagreement & Conquer)と呼ばれるカリキュラムRLの新しいアプローチを提案する。
従来のカリキュラム学習法とは異なり、D2Cは望ましい結果のごくわずかの例しか必要とせず、どんな環境でも機能する。
- 参考スコア(独自算出の注目度): 30.21954044028645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) often faces the challenges of uninformed search
problems where the agent should explore without access to the domain knowledge
such as characteristics of the environment or external rewards. To tackle these
challenges, this work proposes a new approach for curriculum RL called
Diversify for Disagreement & Conquer (D2C). Unlike previous curriculum learning
methods, D2C requires only a few examples of desired outcomes and works in any
environment, regardless of its geometry or the distribution of the desired
outcome examples. The proposed method performs diversification of the
goal-conditional classifiers to identify similarities between visited and
desired outcome states and ensures that the classifiers disagree on states from
out-of-distribution, which enables quantifying the unexplored region and
designing an arbitrary goal-conditioned intrinsic reward signal in a simple and
intuitive way. The proposed method then employs bipartite matching to define a
curriculum learning objective that produces a sequence of well-adjusted
intermediate goals, which enable the agent to automatically explore and conquer
the unexplored region. We present experimental results demonstrating that D2C
outperforms prior curriculum RL methods in both quantitative and qualitative
aspects, even with the arbitrarily distributed desired outcome examples.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) はしばしば、エージェントが環境の特性や外部報酬といったドメイン知識にアクセスせずに探索すべき非情報探索問題の課題に直面している。
これらの課題に対処するため、本研究では、D2C(Diversify for Disagreement & Conquer)と呼ばれるカリキュラムRLの新しいアプローチを提案する。
従来のカリキュラム学習法とは異なり、D2Cは所望の成果の少数の例しか必要とせず、その幾何学や所望の成果例の分布に関わらず、どんな環境でも機能する。
提案手法は,目標条件分類器の多様化を行い,訪れた結果状態と所望の結果状態の類似性を識別し,未探索領域を定量化し,任意の目標条件固有報酬信号を単純かつ直感的に設計できるようにする。
提案手法は両部マッチングを用いて,順応した中間目標の列を生成するカリキュラム学習目標を定義し,エージェントが探索されていない領域を自動的に探索・征服することを可能にする。
本研究は,d2cが,任意に分布した望ましい成果例においても,定量的・質的側面において,事前のカリキュラムrl法を上回っていることを示す実験結果を示す。
関連論文リスト
- Counterfactual Explanation via Search in Gaussian Mixture Distributed
Latent Space [19.312306559210125]
対実説明(CE)は2つの問題に対処するアルゴリズム・リコースにおいて重要なツールである。
簡単に理解しやすい説明を提供することによって、AIシステムに対するユーザのインタラクションを導くことは、AIシステムの信頼できる採用と長期的な受け入れに不可欠である。
本稿では,まずオートエンコーダの潜伏空間をガウス分布の混合として形成することにより,事前学習されたバイナリ分類器のCEを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T10:21:26Z) - Off-policy Evaluation in Doubly Inhomogeneous Environments [26.944002214665385]
我々はモデルベースとモデルフリーの両方のアプローチからなる汎用OPEフレームワークを開発する。
この論文は、二重不均一なオフラインRLにおける統計的に健全なOPE法を開発した最初の論文である。
論文 参考訳(メタデータ) (2023-06-14T19:48:30Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Process discovery on deviant traces and other stranger things [6.974048370610024]
我々は、宣言的プロセスに焦点をあて、プロセス発見のあまり人気のない視点をバイナリ教師付き学習タスクとして受け入れる。
これら2つのセットから得られる価値情報を抽出し,ユーザ定義の目標に従って最適なモデルにフォーマル化する方法について,より深く検討する。
論文 参考訳(メタデータ) (2021-09-30T06:58:34Z) - Concurrent Discrimination and Alignment for Self-Supervised Feature
Learning [52.213140525321165]
既存の自己指導型学習手法は,(1)どの特徴が分離されるべきかを明確に示すこと,あるいは(2)どの特徴が閉じるべきかを明確に示すこと,のいずれかのプリテキストタスクを用いて学習する。
本研究では,識別・調整手法の正の側面を組み合わせて,上記の課題に対処するハイブリッド手法を設計する。
本手法は,識別的予測タスクによってそれぞれ反発とアトラクションのメカニズムを明確に特定し,ペアビュー間の相互情報を同時に最大化する。
確立された9つのベンチマーク実験により,提案モデルが自己監督と移動の既成結果より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-08-19T09:07:41Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Universal Source-Free Domain Adaptation [57.37520645827318]
ドメイン適応のための新しい2段階学習プロセスを提案する。
Procurementの段階では、今後のカテゴリギャップやドメインシフトに関する事前知識を前提とせず、将来的なソースフリーデプロイメントのためのモデルの提供を目標としています。
Deploymentの段階では、幅広いカテゴリギャップをまたいで動作可能な統一適応アルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2020-04-09T07:26:20Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。