論文の概要: StructRL: Recovering Dynamic Programming Structure from Learning Dynamics in Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.08620v1
- Date: Thu, 09 Apr 2026 09:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.495922
- Title: StructRL: Recovering Dynamic Programming Structure from Learning Dynamics in Distributional Reinforcement Learning
- Title(参考訳): StructRL:分散強化学習における学習ダイナミクスから動的プログラミング構造を復元する
- Authors: Ivo Nowak,
- Abstract要約: 動的プログラミング手法は構造化された情報伝達に依存し、効率的で安定した学習を可能にする。
本稿では,分布強化学習の学習力学から,そのような構造を復元できることを示す。
本稿では,これらの信号を利用したStructRLを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is typically treated as a uniform, data-driven optimization process, where updates are guided by rewards and temporal-difference errors without explicitly exploiting global structure. In contrast, dynamic programming methods rely on structured information propagation, enabling efficient and stable learning. In this paper, we provide evidence that such structure can be recovered from the learning dynamics of distributional reinforcement learning. By analyzing the temporal evolution of return distributions, we identify signals that capture when and where learning occurs in the state space. In particular, we introduce a temporal learning indicator t*(s) that reflects when a state undergoes its strongest learning update during training. Empirically, this signal induces an ordering over states that is consistent with a dynamic programming-style propagation of information. Building on this observation, we propose StructRL, a framework that exploits these signals to guide sampling in alignment with the emerging propagation structure. Our preliminary results suggest that distributional learning dynamics provide a mechanism to recover and exploit dynamic programming-like structure without requiring an explicit model. This offers a new perspective on reinforcement learning, where learning can be interpreted as a structured propagation process rather than a purely uniform optimization procedure.
- Abstract(参考訳): 強化学習は通常、一様でデータ駆動の最適化プロセスとして扱われる。
対照的に、動的プログラミング手法は構造化された情報伝達に依存し、効率的で安定した学習を可能にする。
本稿では,分布強化学習の学習力学から,そのような構造を復元できることを示す。
回帰分布の時間的進化を解析することにより、状態空間における学習の時と場所をキャプチャする信号を特定する。
特に,時間的学習指標 t*(s) を導入する。
経験的に、この信号は、動的プログラミングスタイルの情報伝達と整合した状態の順序付けを誘導する。
この観測に基づいて,これらの信号を利用するStructRLを提案する。
予備的な結果は,分散学習のダイナミクスが,明示的なモデルを必要としない動的プログラミング的構造を復元し,活用するためのメカニズムを提供することを示唆している。
これは、純粋に均一な最適化手順ではなく、構造化された伝播過程として解釈できる強化学習に関する新しい視点を提供する。
関連論文リスト
- Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale [50.33952894976367]
我々は文脈自由文法を用いて、ウェブスケールテキストコーパスのための忠実で効率的なプロキシである合成コーパスを生成する。
設計したデータ生成プロセスにおいて,誘導ヘッド,関数ベクトル,ハイドラ効果という3つの力学現象の出現について検討する。
これらの現象の出現を説明する上で,データ生成プロセスの階層構造がX因子となることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T14:49:13Z) - Patterning: The Dual of Interpretability [2.3443925855637073]
パターン化は,各解の局所学習係数をターゲットとして,モデルが学習するアルゴリズムを選択することができることを示す。
結果は、内部構造を読むのに使用されるのと同じ数学的枠組みが、それを記述するために逆転可能であることを証明している。
論文 参考訳(メタデータ) (2026-01-20T03:15:27Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - STRAP: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization [29.10084723132903]
本稿では,時空間探索型パターン学習フレームワークSTRAPを提案する。
推論中、STRAPは現在の入力と類似性に基づいてライブラリから関連するパターンを検索し、プラグイン・アンド・プレイ・プロンプト機構を介してモデルに注入する。
複数の実世界のストリーミンググラフデータセットに対する実験によると、STRAPはSTOODタスクの最先端STGNNベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-26T06:11:05Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - Nature-Inspired Local Propagation [68.63385571967267]
自然学習プロセスは、データの表現と学習が局所性を尊重するような方法で交わされるメカニズムに依存している。
ハミルトン方程式の構造を導出した「学習の法則」のアルゴリズム的解釈は、伝播の速度が無限大になるときにバックプロパゲーションに還元されることを示す。
これにより、バックプロパゲーションと提案されたローカルアルゴリズムの置き換えに基づく完全なオンライン情報に基づく機械学習への扉が開く。
論文 参考訳(メタデータ) (2024-02-04T21:43:37Z) - Loop Polarity Analysis to Avoid Underspecification in Deep Learning [0.0]
本稿では,データ生成過程の因果構造を特定するツールとして,ループ極性解析に目を向ける。
システムを構成する異なるフィードバックループの極性を測定することで、ニューラルネットワークのより堅牢な推論が可能になることを示す。
論文 参考訳(メタデータ) (2023-09-18T23:49:42Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。