論文の概要: Temporally Extended Successor Representations
- arxiv url: http://arxiv.org/abs/2209.12331v1
- Date: Sun, 25 Sep 2022 22:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-27 14:36:42.720465
- Title: Temporally Extended Successor Representations
- Title(参考訳): 一時拡張継承表現
- Authors: Matthew J. Sargent, Peter J. Bentley, Caswell Barry, William de Cothi
- Abstract要約: 後続表現の時間的に拡張された変化を t-SR と呼ぶ。
t-SRは、原始的なアクションリピートの上に後続表現を構築することによって、時間的に拡張されたアクションの期待状態遷移ダイナミクスをキャプチャする。
動的報酬構造を持つ環境では、t-SRは後継表現の柔軟性と時間的に拡張された動作によって得られる抽象化の両方を活用することができることを示す。
- 参考スコア(独自算出の注目度): 0.9176056742068812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a temporally extended variation of the successor representation,
which we term t-SR. t-SR captures the expected state transition dynamics of
temporally extended actions by constructing successor representations over
primitive action repeats. This form of temporal abstraction does not learn a
top-down hierarchy of pertinent task structures, but rather a bottom-up
composition of coupled actions and action repetitions. This lessens the amount
of decisions required in control without learning a hierarchical policy. As
such, t-SR directly considers the time horizon of temporally extended action
sequences without the need for predefined or domain-specific options. We show
that in environments with dynamic reward structure, t-SR is able to leverage
both the flexibility of the successor representation and the abstraction
afforded by temporally extended actions. Thus, in a series of sparsely rewarded
gridworld environments, t-SR optimally adapts learnt policies far faster than
comparable value-based, model-free reinforcement learning methods. We also show
that the manner in which t-SR learns to solve these tasks requires the learnt
policy to be sampled consistently less often than non-temporally extended
policies.
- Abstract(参考訳): 我々は、t-sr と呼ぶ後継表現の時間的拡張変化を示す。
t-SRは、原始的なアクションリピートの上に後続表現を構築することによって、時間的に拡張されたアクションの期待状態遷移ダイナミクスをキャプチャする。
この時間的抽象化形式は、関連するタスク構造のトップダウン階層を学習するのではなく、結合されたアクションとアクション反復のボトムアップ構成を学習する。
これにより、階層的なポリシーを学ぶことなく、制御に必要な決定の量を減らすことができる。
このように、t-SRは時間的に拡張されたアクションシーケンスの時間的水平性を直接考慮し、事前に定義されたあるいはドメイン固有のオプションを必要としない。
動的報酬構造を持つ環境では、t-srは後継表現の柔軟性と、時間的に拡張されたアクションによって得られる抽象化の両方を活用できることを示す。
このように、粗末に報奨されたグリッドワールド環境において、t-SRは学習ポリシーを、同等の価値に基づくモデルなし強化学習法よりもはるかに高速に適応する。
また,t-srがこれらの課題を解く方法を学習するためには,時間的でない拡張ポリシーよりも,学習ポリシーを一貫してサンプリングすることが必要であることを示した。
関連論文リスト
- Zero-Shot Instruction Following in RL via Structured LTL Representations [50.41415009303967]
マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。
この設定では、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして線形時間論理が採用されている。
既存のアプローチはジェネラリストの政策を訓練することに成功しているが、仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
論文 参考訳(メタデータ) (2026-02-15T23:22:50Z) - Hierarchical Successor Representation for Robust Transfer [10.635248457021495]
階層的継承表現(HSR)を提案する。
時間的抽象化を予測表現の構成に組み込むことで、HSRはタスクによって引き起こされるポリシー変更に対して堅牢な安定した状態特徴を学習する。
我々は,HSRの時間的拡張予測構造を利用して効率的に探索し,大規模で手続き的に生成された環境に効果的にスケールできることを示す。
論文 参考訳(メタデータ) (2026-02-13T09:32:26Z) - RN-D: Discretized Categorical Actors with Regularized Networks for On-Policy Reinforcement Learning [27.45103393884625]
我々は、政策表現を、オン・ポリティクス最適化のための第一級の設計選択として再考する。
我々は,各行動次元をビン上の分布で表わす離散化されたカテゴリー的アクターについて検討し,クロスエントロピー損失に類似した政策目標を導出する。
その結果,標準的なアクターネットワークを離散化された正規化アクターに置き換えれば,一貫した利得が得られることがわかった。
論文 参考訳(メタデータ) (2026-01-30T15:24:34Z) - Learning Policy Representations for Steerable Behavior Synthesis [80.4542176039074]
マルコフ決定プロセス(MDP)を前提として,テスト時の行動ステアリングを促進するために,さまざまなポリシーの表現を学習する。
これらの表現は、セットベースアーキテクチャを用いて、様々なポリシーに対して均一に近似できることを示す。
変動生成法を用いてスムーズな潜伏空間を導出し,さらにコントラスト学習により、潜伏距離が値関数の差と一致するように形成する。
論文 参考訳(メタデータ) (2026-01-29T21:52:06Z) - Improving and Accelerating Offline RL in Large Discrete Action Spaces with Structured Policy Initialization [11.646124619395486]
離散的な作用空間における強化学習では、指数関数的に多くの共同作用を探索し、コヒーレントな組み合わせを形成する複数の部分作用を同時に選択する必要がある。
既存のアプローチは、サブアクション間で独立性を仮定することでポリシー学習を単純化するか、またはアクション構造とコントロールを共同で学ぼうとする。
本稿では,まず行動構造モデル(ASM)を事前訓練し,有効な行動の多様体を抽出し,その表現を凍結し,軽量なポリシーヘッドを制御するための2段階のフレームワークであるStructured Policy Initialization(SPIN)を紹介する。
論文 参考訳(メタデータ) (2026-01-07T22:57:21Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - ReCAP: Recursive Context-Aware Reasoning and Planning for Large Language Model Agents [61.51091799997476]
ReCAP(Recursive Context-Aware Reasoning and Planning)は,大規模言語モデル(LLM)における推論と計画のためのコンテキストを共有する階層型フレームワークである。
ReCAPは、プラン-アヘッド分解、親プランの構造化された再注入、メモリ効率の高い実行という3つの重要なメカニズムを組み合わせる。
実験により、ReCAPは様々なロングホライゾン推論ベンチマークにおけるサブゴールアライメントと成功率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T20:03:55Z) - DeCoP: Enhancing Self-Supervised Time Series Representation with Dependency Controlled Pre-training [39.30046923897652]
本稿では、動的でマルチスケールな依存関係を、進化するパッチ間の依存関係をシミュレートすることで、明示的にモデル化する依存性制御事前学習フレームワークを提案する。
DeCoPは、低いコンピューティングリソースを持つ10のデータセットに対して最先端の結果を達成し、わずか37%のFLOPを使用して、PatchTST上のETTh1上でMSEを3%改善する。
論文 参考訳(メタデータ) (2025-09-18T05:44:06Z) - Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment [0.0]
本稿では,トランス層内の学習表現を動的に調整する確率的層配向戦略を提案する。
急激なトピックシフトと論理的不整合を軽減し、特にシークエンスが標準の注意窓の制約を超えるシナリオにおいて。
SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションへの実用的なデプロイに適している。
論文 参考訳(メタデータ) (2025-01-29T12:46:42Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Hierarchical Orchestra of Policies [1.6574413179773757]
HOPは、現在の観察と、成功したタスクでこれまで遭遇した観察との類似度基準に基づいて、ポリシーの階層を動的に形成する。
HOPはタスクラベリングを必要としないため、タスク間のバウンダリがあいまいな環境でのロバストな適応を可能にする。
本実験は,複数のタスクにまたがってプロシージャ的に生成した環境下で実施し,HOPがタスク間の知識を維持する上で,ベースライン法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-11-05T11:13:09Z) - GMP-AR: Granularity Message Passing and Adaptive Reconciliation for Temporal Hierarchy Forecasting [20.56839345239421]
時間的粒度の異なる時系列予測は、現実世界の応用において広く用いられている。
時間階層情報を利用して予測性能を向上させる新しい粒度メッセージパッシング機構(GMP)を提案する。
また、より現実的な制約に固執しつつ、タスクベースの目標を達成するための最適化モジュールも導入する。
論文 参考訳(メタデータ) (2024-06-18T03:33:03Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - A State Representation for Diminishing Rewards [20.945260614372327]
マルチタスク強化学習(RL)における一般的な設定は、エージェントが固定分布からランダムにサンプリングされた様々な定常報酬関数に迅速に適応することを要求する。
自然界では、シーケンシャルなタスクは滅多に独立せず、代わりに報酬刺激の可利用性と主観的な認識に基づいて優先順位を変えることを反映している。
我々は、この設定でポリシー評価に必要とされる$lambda$ representation(lambda$R)を紹介します。
論文 参考訳(メタデータ) (2023-09-07T13:38:36Z) - Non-Stationary Bandits with Auto-Regressive Temporal Dependency [14.093856726745662]
本稿では,自己回帰(AR)報酬構造を通じて実世界の力学の時間構造をキャプチャする,新しい非定常MABフレームワークを提案する。
i) 時間的依存を利用して探索と利用を動的にバランスさせるのに適した変更機構と, (ii) 時代遅れの情報を捨てるように設計された再起動機構の2つの主要なメカニズムを統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-28T20:02:21Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。