論文の概要: Temporally Extended Successor Representations
- arxiv url: http://arxiv.org/abs/2209.12331v1
- Date: Sun, 25 Sep 2022 22:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:36:42.720465
- Title: Temporally Extended Successor Representations
- Title(参考訳): 一時拡張継承表現
- Authors: Matthew J. Sargent, Peter J. Bentley, Caswell Barry, William de Cothi
- Abstract要約: 後続表現の時間的に拡張された変化を t-SR と呼ぶ。
t-SRは、原始的なアクションリピートの上に後続表現を構築することによって、時間的に拡張されたアクションの期待状態遷移ダイナミクスをキャプチャする。
動的報酬構造を持つ環境では、t-SRは後継表現の柔軟性と時間的に拡張された動作によって得られる抽象化の両方を活用することができることを示す。
- 参考スコア(独自算出の注目度): 0.9176056742068812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a temporally extended variation of the successor representation,
which we term t-SR. t-SR captures the expected state transition dynamics of
temporally extended actions by constructing successor representations over
primitive action repeats. This form of temporal abstraction does not learn a
top-down hierarchy of pertinent task structures, but rather a bottom-up
composition of coupled actions and action repetitions. This lessens the amount
of decisions required in control without learning a hierarchical policy. As
such, t-SR directly considers the time horizon of temporally extended action
sequences without the need for predefined or domain-specific options. We show
that in environments with dynamic reward structure, t-SR is able to leverage
both the flexibility of the successor representation and the abstraction
afforded by temporally extended actions. Thus, in a series of sparsely rewarded
gridworld environments, t-SR optimally adapts learnt policies far faster than
comparable value-based, model-free reinforcement learning methods. We also show
that the manner in which t-SR learns to solve these tasks requires the learnt
policy to be sampled consistently less often than non-temporally extended
policies.
- Abstract(参考訳): 我々は、t-sr と呼ぶ後継表現の時間的拡張変化を示す。
t-SRは、原始的なアクションリピートの上に後続表現を構築することによって、時間的に拡張されたアクションの期待状態遷移ダイナミクスをキャプチャする。
この時間的抽象化形式は、関連するタスク構造のトップダウン階層を学習するのではなく、結合されたアクションとアクション反復のボトムアップ構成を学習する。
これにより、階層的なポリシーを学ぶことなく、制御に必要な決定の量を減らすことができる。
このように、t-SRは時間的に拡張されたアクションシーケンスの時間的水平性を直接考慮し、事前に定義されたあるいはドメイン固有のオプションを必要としない。
動的報酬構造を持つ環境では、t-srは後継表現の柔軟性と、時間的に拡張されたアクションによって得られる抽象化の両方を活用できることを示す。
このように、粗末に報奨されたグリッドワールド環境において、t-SRは学習ポリシーを、同等の価値に基づくモデルなし強化学習法よりもはるかに高速に適応する。
また,t-srがこれらの課題を解く方法を学習するためには,時間的でない拡張ポリシーよりも,学習ポリシーを一貫してサンプリングすることが必要であることを示した。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Hierarchical Orchestra of Policies [1.6574413179773757]
HOPは、現在の観察と、成功したタスクでこれまで遭遇した観察との類似度基準に基づいて、ポリシーの階層を動的に形成する。
HOPはタスクラベリングを必要としないため、タスク間のバウンダリがあいまいな環境でのロバストな適応を可能にする。
本実験は,複数のタスクにまたがってプロシージャ的に生成した環境下で実施し,HOPがタスク間の知識を維持する上で,ベースライン法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-11-05T11:13:09Z) - GMP-AR: Granularity Message Passing and Adaptive Reconciliation for Temporal Hierarchy Forecasting [20.56839345239421]
時間的粒度の異なる時系列予測は、現実世界の応用において広く用いられている。
時間階層情報を利用して予測性能を向上させる新しい粒度メッセージパッシング機構(GMP)を提案する。
また、より現実的な制約に固執しつつ、タスクベースの目標を達成するための最適化モジュールも導入する。
論文 参考訳(メタデータ) (2024-06-18T03:33:03Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - A State Representation for Diminishing Rewards [20.945260614372327]
マルチタスク強化学習(RL)における一般的な設定は、エージェントが固定分布からランダムにサンプリングされた様々な定常報酬関数に迅速に適応することを要求する。
自然界では、シーケンシャルなタスクは滅多に独立せず、代わりに報酬刺激の可利用性と主観的な認識に基づいて優先順位を変えることを反映している。
我々は、この設定でポリシー評価に必要とされる$lambda$ representation(lambda$R)を紹介します。
論文 参考訳(メタデータ) (2023-09-07T13:38:36Z) - Non-Stationary Bandits with Auto-Regressive Temporal Dependency [14.093856726745662]
本稿では,自己回帰(AR)報酬構造を通じて実世界の力学の時間構造をキャプチャする,新しい非定常MABフレームワークを提案する。
i) 時間的依存を利用して探索と利用を動的にバランスさせるのに適した変更機構と, (ii) 時代遅れの情報を捨てるように設計された再起動機構の2つの主要なメカニズムを統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-28T20:02:21Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。