論文の概要: Exploring the Stratified Space Structure of an RL Game with the Volume Growth Transform
- arxiv url: http://arxiv.org/abs/2507.22010v1
- Date: Tue, 29 Jul 2025 17:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.7664
- Title: Exploring the Stratified Space Structure of an RL Game with the Volume Growth Transform
- Title(参考訳): 体積成長変換を用いたRLゲームの成層空間構造探索
- Authors: Justin Curry, Brennan Lagasse, Ngoc B. Lam, Gregory Cox, David Rosenbluth, Alberto Speranzon,
- Abstract要約: 変換器を用いた近似ポリシー最適化モデルが視覚入力を簡単な環境に組み込む方法について検討する。
視覚的コイン収集ゲームにおけるトークン埋め込み空間も多様体ではないことが分かる。
我々は、RLエージェントが作用するにつれて、その潜在表現が低局所次元の周期間で交互に変化することを示唆する分析を行う。
- 参考スコア(独自算出の注目度): 0.32985979395737774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore the structure of the embedding space of a transformer model trained for playing a particular reinforcement learning (RL) game. Specifically, we investigate how a transformer-based Proximal Policy Optimization (PPO) model embeds visual inputs in a simple environment where an agent must collect "coins" while avoiding dynamic obstacles consisting of "spotlights." By adapting Robinson et al.'s study of the volume growth transform for LLMs to the RL setting, we find that the token embedding space for our visual coin collecting game is also not a manifold, and is better modeled as a stratified space, where local dimension can vary from point to point. We further strengthen Robinson's method by proving that fairly general volume growth curves can be realized by stratified spaces. Finally, we carry out an analysis that suggests that as an RL agent acts, its latent representation alternates between periods of low local dimension, while following a fixed sub-strategy, and bursts of high local dimension, where the agent achieves a sub-goal (e.g., collecting an object) or where the environmental complexity increases (e.g., more obstacles appear). Consequently, our work suggests that the distribution of dimensions in a stratified latent space may provide a new geometric indicator of complexity for RL games.
- Abstract(参考訳): 本研究では,特定の強化学習ゲーム(RL)をプレイするために訓練された変圧器モデルの埋め込み空間の構造について検討する。
具体的には,変圧器を用いたPPOモデルが,エージェントが「スポットライト」からなる動的障害物を避けながら「コイン」を収集しなければならない単純な環境に視覚入力を組み込む方法について検討する。
ロビンソンらによるLLMの体積成長変換の研究をRL設定に適用することにより、我々の視覚的コイン収集ゲームにおけるトークン埋め込み空間も多様体ではなく、局所次元が点ごとに変化する成層空間としてモデル化されていることが分かる。
我々はロビンソンの方法をさらに強化し、かなり一般的な体積成長曲線が成層空間によって実現できることを証明した。
最後に、RLエージェントが作用すると、その潜伏表現は、固定されたサブストラテジーに従って、低局所次元の周期と高局所次元のバーストの間で交互に作用し、エージェントがサブゴール(例えば、オブジェクトの収集)を達成するか、環境の複雑さが増加する(例えば、より多くの障害が現れる)ことを示唆する分析を行う。
その結果,階層化された潜在空間における次元の分布は,RLゲームにおける新たな幾何学的指標となる可能性が示唆された。
関連論文リスト
- RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Illuminating Spaces: Deep Reinforcement Learning and Laser-Wall Partitioning for Architectural Layout Generation [0.0]
本稿では,人間の設計過程を直感的に模倣する手続き的アプローチを提案する。
SLDにRLを効果的に使用するには、望ましい設計ソリューションを生成するための爆発的空間構成法が必要である。
本稿では,空間分割のための空間分割法である「レーザー壁」を紹介した。
論文 参考訳(メタデータ) (2025-02-06T09:35:24Z) - Policy Abstraction and Nash Refinement in Tree-Exploiting PSRO [10.137357924571262]
Policy Space Response Oracles (PSRO) は、従来の分析手法では複雑すぎるゲームを解決するために、実験的なゲーム理論解析を深層強化学習 (DRL) とインターリーブする。
ツリー露光PSRO (TE-PSRO) は、広義に粗い経験ゲームモデルを反復的に構築するこのアプローチの変種である。
TE-PSROには2つの方法論的進歩があり、不完全情報の複雑なゲームへの適用性を高めている。
論文 参考訳(メタデータ) (2025-02-05T05:48:16Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。
具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。
拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文 参考訳(メタデータ) (2023-05-30T11:34:57Z) - Architecting and Visualizing Deep Reinforcement Learning Models [77.34726150561087]
深層強化学習(Deep Reinforcement Learning, DRL)は、コンピュータが相互にコミュニケーションする方法を教えることを目的とした理論である。
本稿では,新しいAtari Pongゲーム環境,ポリシーグラデーションに基づくDRLモデル,リアルタイムネットワーク可視化,そしてDRL推論の直観と認識を構築するためのインタラクティブディスプレイを提案する。
論文 参考訳(メタデータ) (2021-12-02T17:48:26Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。