論文の概要: Hierarchical Successor Representation for Robust Transfer
- arxiv url: http://arxiv.org/abs/2602.12753v1
- Date: Fri, 13 Feb 2026 09:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.906484
- Title: Hierarchical Successor Representation for Robust Transfer
- Title(参考訳): ロバスト転送のための階層的継承表現
- Authors: Changmin Yu, Máté Lengyel,
- Abstract要約: 階層的継承表現(HSR)を提案する。
時間的抽象化を予測表現の構成に組み込むことで、HSRはタスクによって引き起こされるポリシー変更に対して堅牢な安定した状態特徴を学習する。
我々は,HSRの時間的拡張予測構造を利用して効率的に探索し,大規模で手続き的に生成された環境に効果的にスケールできることを示す。
- 参考スコア(独自算出の注目度): 10.635248457021495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The successor representation (SR) provides a powerful framework for decoupling predictive dynamics from rewards, enabling rapid generalisation across reward configurations. However, the classical SR is limited by its inherent policy dependence: policies change due to ongoing learning, environmental non-stationarities, and changes in task demands, making established predictive representations obsolete. Furthermore, in topologically complex environments, SRs suffer from spectral diffusion, leading to dense and overlapping features that scale poorly. Here we propose the Hierarchical Successor Representation (HSR) for overcoming these limitations. By incorporating temporal abstractions into the construction of predictive representations, HSR learns stable state features which are robust to task-induced policy changes. Applying non-negative matrix factorisation (NMF) to the HSR yields a sparse, low-rank state representation that facilitates highly sample-efficient transfer to novel tasks in multi-compartmental environments. Further analysis reveals that HSR-NMF discovers interpretable topological structures, providing a policy-agnostic hierarchical map that effectively bridges model-free optimality and model-based flexibility. Beyond providing a useful basis for task-transfer, we show that HSR's temporally extended predictive structure can also be leveraged to drive efficient exploration, effectively scaling to large, procedurally generated environments.
- Abstract(参考訳): 後継表現(SR)は、報酬から予測力学を分離するための強力なフレームワークを提供する。
しかし、古典的SRは、継続的な学習による政策変更、環境非定常性、タスク要求の変化、確立された予測表現の陳腐化など、固有の政策依存によって制限されている。
さらに、位相的に複雑な環境では、SRはスペクトル拡散に悩まされ、密度と重なり合いが悪くなってしまう。
本稿では,これらの制約を克服するための階層的継承表現(HSR)を提案する。
時間的抽象化を予測表現の構成に組み込むことで、HSRはタスクによって引き起こされるポリシー変更に対して堅牢な安定した状態特徴を学習する。
非負行列分解(NMF)をHSRに適用すると、スパースで低ランクな状態表現が得られ、多部構成環境における新規なタスクへの高サンプリング効率な転送が容易になる。
さらなる分析により、HSR-NMFは解釈可能なトポロジ構造を発見し、モデルのない最適性とモデルベースの柔軟性を効果的に橋渡しするポリシーに依存しない階層写像を提供することが明らかになった。
タスク転送の有用な基盤を提供する以外に,HSRの時間的拡張予測構造を利用して効率的な探索を行い,大規模で手続き的に生成された環境に効果的にスケールできることを示す。
関連論文リスト
- Roughness-Informed Federated Learning [3.8218584696400484]
フェデレートラーニング(FL)は、分散クライアント間の協調モデルトレーニングを可能にする。
FLはクライアントのドリフトによって非独立で同一に分散された(IIDではない)設定で課題に直面します。
本稿ではRoughness Index(RI)ベースの正規化項を組み込むことでクライアントのドリフトを緩和する新しいFLであるRI-FedAvgを提案する。
論文 参考訳(メタデータ) (2026-02-11T07:35:45Z) - Bidirectional Reward-Guided Diffusion for Real-World Image Super-Resolution [79.35296000454694]
拡散に基づく超解像は、豊富な詳細を合成することができるが、合成ペアデータで訓練されたモデルは、現実世界のLR画像では失敗することが多い。
我々は,超解像を軌道レベルの優先最適化として定式化する報奨誘導拡散フレームワークであるBird-SRを提案する。
実世界のSRベンチマークの実験では、Bird-SRは知覚品質において最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-05T19:21:45Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Topology-Assisted Spatio-Temporal Pattern Disentangling for Scalable MARL in Large-scale Autonomous Traffic Control [14.929720580977152]
本稿では,動的グラフニューラルネットワーク(DGNN)とトポロジカルデータ解析(TDA)を統合した新しいMARLフレームワークを提案する。
大規模言語モデル (LLMs) におけるMixture of Experts (MoE) アーキテクチャに着想を得て, 位相支援型空間パターンアンタングリング (TSD) 強化型MoEを提案する。
実世界の交通シナリオにおいて行われた大規模な実験は、包括的な理論的分析とともに、提案フレームワークの優れた性能を検証した。
論文 参考訳(メタデータ) (2025-06-14T11:18:12Z) - High-Fidelity Scientific Simulation Surrogates via Adaptive Implicit Neural Representations [51.90920900332569]
入射神経表現(INR)は空間的に構造化されたデータをモデリングするためのコンパクトで連続的なフレームワークを提供する。
近年のアプローチでは、剛性幾何学的構造に沿った付加的な特徴を導入することでこの問題に対処している。
機能適応型INR(FA-INR)を提案する。
論文 参考訳(メタデータ) (2025-06-07T16:45:17Z) - Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment [0.0]
本稿では,トランス層内の学習表現を動的に調整する確率的層配向戦略を提案する。
急激なトピックシフトと論理的不整合を軽減し、特にシークエンスが標準の注意窓の制約を超えるシナリオにおいて。
SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションへの実用的なデプロイに適している。
論文 参考訳(メタデータ) (2025-01-29T12:46:42Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Temporally Extended Successor Representations [0.9176056742068812]
後続表現の時間的に拡張された変化を t-SR と呼ぶ。
t-SRは、原始的なアクションリピートの上に後続表現を構築することによって、時間的に拡張されたアクションの期待状態遷移ダイナミクスをキャプチャする。
動的報酬構造を持つ環境では、t-SRは後継表現の柔軟性と時間的に拡張された動作によって得られる抽象化の両方を活用することができることを示す。
論文 参考訳(メタデータ) (2022-09-25T22:08:08Z) - Action-Sufficient State Representation Learning for Control with
Structural Constraints [21.47086290736692]
本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する,最小限の状態表現の集合を学習することを提案する。
システム内の変数間の構造的関係のための生成環境モデルを構築し、ASRを特徴付けるための原則的な方法を提案する。
CarRacing と VizDoom の実証実験の結果は,ASR を政策学習に活用する上で,明らかな優位性を示している。
論文 参考訳(メタデータ) (2021-10-12T03:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。