論文の概要: The configurable tree graph (CT-graph): measurable problems in partially
observable and distal reward environments for lifelong reinforcement learning
- arxiv url: http://arxiv.org/abs/2302.10887v1
- Date: Sat, 21 Jan 2023 21:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 14:00:36.611025
- Title: The configurable tree graph (CT-graph): measurable problems in partially
observable and distal reward environments for lifelong reinforcement learning
- Title(参考訳): 構成可能な木図(CTグラフ) : 生涯強化学習のための部分観測可能および遠位報酬環境における測定可能な問題
- Authors: Andrea Soltoggio, Eseoghene Ben-Iwhiwhu, Christos Peridis, Pawel
Ladosz, Jeffery Dick, Praveen K. Pilly, Soheil Kolouri
- Abstract要約: 本稿では,強化学習アルゴリズムのための形式的および透明な問題の集合を紹介する。
問題の定式化と付随コードは、強化学習アルゴリズムの性能を比較するために、高速で透明で数学的に定義されたテストセットを提供する。
- 参考スコア(独自算出の注目度): 14.91472053704749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a set of formally defined and transparent problems for
reinforcement learning algorithms with the following characteristics: (1)
variable degrees of observability (non-Markov observations), (2) distal and
sparse rewards, (3) variable and hierarchical reward structure, (4)
multiple-task generation, (5) variable problem complexity. The environment
provides 1D or 2D categorical observations, and takes actions as input. The
core structure of the CT-graph is a multi-branch tree graph with arbitrary
branching factor, depth, and observation sets that can be varied to increase
the dimensions of the problem in a controllable and measurable way. Two main
categories of states, decision states and wait states, are devised to create a
hierarchy of importance among observations, typical of real-world problems. A
large observation set can produce a vast set of histories that impairs
memory-augmented agents. Variable reward functions allow for the easy creation
of multiple tasks and the ability of an agent to efficiently adapt in dynamic
scenarios where tasks with controllable degrees of similarities are presented.
Challenging complexity levels can be easily achieved due to the exponential
growth of the graph. The problem formulation and accompanying code provide a
fast, transparent, and mathematically defined set of configurable tests to
compare the performance of reinforcement learning algorithms, in particular in
lifelong learning settings.
- Abstract(参考訳): 本稿では,(1)可観測度の可変度(非マルコフ観測),(2)遠位とスパース報酬,(3)可変および階層的報酬構造,(4)多重タスク生成,(5)可変問題複雑性といった特徴を持つ強化学習アルゴリズムの形式的かつ透明な問題について紹介する。
環境は1Dまたは2Dの分類学的観察を提供し、入力としてアクションを取る。
CTグラフのコア構造は、任意の分岐係数、深さ、観察セットを持つマルチブランチツリーグラフであり、制御可能で測定可能な方法で問題の次元を拡大するために変更することができる。
決定状態と待機状態の2つの主要な分類は、実世界の問題に典型的な観察の中で重要な階層を形成するために考案された。
大きな観測セットは、メモリ増強されたエージェントを損なう膨大な履歴を生成できる。
可変報酬関数により、複数のタスクを簡単に作成でき、制御可能な類似度を持つタスクが提示される動的シナリオにエージェントが効率的に適応できる。
複雑性の増大はグラフの指数的な成長によって容易に達成できる。
問題の定式化と付随コードは、特に生涯学習環境において強化学習アルゴリズムの性能を比較するために、高速で透明で数学的に定義された設定可能なテストセットを提供する。
関連論文リスト
- Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers [16.26331213222281]
アーキテクチャ設計の選択がトランスフォーマーが実装し学習できるソリューションの空間にどのように影響するかを検討する。
小型変圧器が理論的に実装できる2つの異なる計数戦略を特徴付ける。
簡単な設定であっても、モデル設計のわずかなバリエーションは、トランスフォーマーが学習するソリューションに大きな変化をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-07-16T09:48:10Z) - Latent Hierarchical Causal Structure Discovery with Rank Constraints [19.61598654735681]
我々は、いくつかの変数が潜伏し、階層的なグラフ構造を形成する因果構造同定のための挑戦的なシナリオを考える。
本稿では,潜伏変数を効率よく検出し,その濃度を判定し,潜伏階層構造を同定する推定手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T03:27:54Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Computational Graph Completion [0.8122270502556374]
計算知識の生成、編成、推論のためのフレームワークを導入する。
計算科学と工学のほとんどの問題は、計算グラフを完成させるものであると記述できるという観察から動機づけられている。
論文 参考訳(メタデータ) (2021-10-20T00:32:06Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。