論文の概要: Task-Induced Representational Invariances Depend on Learning Objective in Deep RL
- arxiv url: http://arxiv.org/abs/2606.01868v1
- Date: Mon, 01 Jun 2026 08:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.60765
- Title: Task-Induced Representational Invariances Depend on Learning Objective in Deep RL
- Title(参考訳): 深部RLにおける学習目的に依存したタスク誘発表現不変性
- Authors: Manu Srinath Halvagal, Sebastian Lee, SueYeon Chung,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、長年、神経科学における目標指向の動物行動のモデルとして機能してきた。
MDP還元理論のレンズによる深部RL表現の解析を行った。
我々の研究は、学習した表現をRLアルゴリズムで比較するための原則的なアプローチを提供し、実践的な意味と脳内のニューラルコーディングに関する洞察を実証した。
- 参考スコア(独自算出の注目度): 7.985354141014646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has long served as a model for goal-directed animal behavior in neuroscience. Modern deep RL has shown remarkable success across many domains, further strengthening this connection. The ability to learn abstract representations of high-dimensional state spaces underlies much of this success. However, theoretical understanding of these learned representations remains limited, hindering direct comparisons between models and animal learning. We address this gap by analyzing deep RL representations through the lens of MDP reduction theory. Investigating canonical RL algorithms in a navigation task, we find that even when performance is comparable, the value-based method (DQN) learns representations that are invariant to MDP homomorphism symmetries, while the policy-gradient method (PPO) learns representations invariant to action symmetries. These differences emerge consistently across domains, have downstream consequences for transfer learning, and appear in LLMs in a prompt-dependent manner. Our findings provide a principled approach to comparing learned representations across RL algorithms, with demonstrated practical implications and possible insights for neural coding in the brain.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、長年、神経科学における目標指向の動物行動のモデルとして機能してきた。
現代の深いRLは多くの領域で顕著な成功を収めており、この関係をさらに強化している。
高次元状態空間の抽象表現を学習する能力は、この成功の根底にある。
しかし、これらの学習された表現の理論的理解は限定的であり、モデルと動物学習の直接的な比較を妨げる。
MDP還元理論のレンズによる深部RL表現の解析により,このギャップに対処する。
ナビゲーションタスクにおける標準RLアルゴリズムを調べたところ、値ベース手法(DQN)はMDP準同型対称性に不変な表現を学習し、ポリシグラディエント手法(PPO)はアクション対称性に不変な表現を学習することがわかった。
これらの違いは、ドメイン間で一貫して現れ、転送学習の下流結果をもたらし、即時依存的にLSMに現れる。
我々の研究は、学習した表現をRLアルゴリズムで比較するための原則的なアプローチを提供し、実践的な意味と脳内のニューラルコーディングに関する洞察を実証した。
関連論文リスト
- The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions [13.774600272141761]
強化学習アルゴリズムは、様々な領域において変形的であることが証明されている。
RLの多くの理論は、離散状態空間や最悪のケース解析に焦点を当てている。
本稿では,様々な学習プロトコルを捉えることができるRLの高次元解像モデルを提案する。
論文 参考訳(メタデータ) (2023-06-17T18:16:51Z) - Disentangled Representation Learning [46.51815065323667]
Disentangled Representation Learning (DRL) は、観測可能なデータに隠された基礎的要因を表現形式で識別し、切り離すことができるモデルを学習することを目的としている。
我々は、モチベーション、定義、方法論、評価、応用、モデル設計を含む様々な側面からDRLを包括的に調査する。
論文 参考訳(メタデータ) (2022-11-21T18:14:38Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。